reddit_disentanglement

  • Açıklama:

Bu veri seti reddit'ten ~3 milyon mesaj içeriyor. Her mesaj meta verilerle etiketlenir. Görev, ilgili iş parçacığındaki üst mesajının kimliğini tahmin etmektir. Her kayıt, bir diziden gelen mesajların bir listesini içerir. Yinelenen ve bozulan kayıtlar veri kümesinden kaldırılır.

Özellikler şunlardır: - id - mesaj kimliği - metin - mesaj metni - yazar - mesaj yazarı - create_utc - mesaj UTC zaman damgası - link_id - yorumun ilgili olduğu gönderinin kimliği Hedef: - parent_id - mevcut ileti dizisindeki üst mesajın kimliği

Bölünmüş Örnekler
  • Özellikler:
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=tf.string),
        'created_utc': Text(shape=(), dtype=tf.string),
        'id': Text(shape=(), dtype=tf.string),
        'link_id': Text(shape=(), dtype=tf.string),
        'parent_id': Text(shape=(), dtype=tf.string),
        'text': Text(shape=(), dtype=tf.string),
    }),
})
@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}