- Açıklama:
Bu veri seti reddit'ten ~3 milyon mesaj içeriyor. Her mesaj meta verilerle etiketlenir. Görev, ilgili iş parçacığındaki üst mesajının kimliğini tahmin etmektir. Her kayıt, bir diziden gelen mesajların bir listesini içerir. Yinelenen ve bozulan kayıtlar veri kümesinden kaldırılır.
Özellikler şunlardır: - id - mesaj kimliği - metin - mesaj metni - yazar - mesaj yazarı - create_utc - mesaj UTC zaman damgası - link_id - yorumun ilgili olduğu gönderinin kimliği Hedef: - parent_id - mevcut ileti dizisindeki üst mesajın kimliği
Anasayfa: https://github.com/henghuiz/MaskedHierarchicalTransformer
Kaynak kodu:
tfds.text.RedditDisentanglement
sürümleri:
-
2.0.0
(varsayılan): Hayır sürüm notları.
-
İndirme boyutu:
Unknown size
Veri kümesi boyutu:
Unknown size
Manuel indirme talimatları: Bu veri kümesi içine elle kaynak verileri indirmenizi gerektirir
download_config.manual_dir
(varsayılan olarak~/tensorflow_datasets/downloads/manual/
):
İndir https://github.com/henghuiz/MaskedHierarchicalTransformer, senin reddit API kimlik bilgileriyle serbest kalır raw_data.zip ve çalıştırma generate_dataset.py. Ardından, çıktı dizininden train.csv, val.csv ve test.csv'yi manual klasörüne koyun.Otomatik önbelleğe ( dokümantasyon ): Bilinmeyen
Splits:
Bölünmüş | Örnekler |
---|
- Özellikler:
FeaturesDict({
'thread': Sequence({
'author': Text(shape=(), dtype=tf.string),
'created_utc': Text(shape=(), dtype=tf.string),
'id': Text(shape=(), dtype=tf.string),
'link_id': Text(shape=(), dtype=tf.string),
'parent_id': Text(shape=(), dtype=tf.string),
'text': Text(shape=(), dtype=tf.string),
}),
})
Denetimli tuşları (Bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): desteklenmez.
Örnekler ( tfds.as_dataframe ): eksik.
Citation:
@article{zhu2019did,
title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
journal={arXiv preprint arXiv:1911.10666},
year={2019}
}