Halaman ini diterjemahkan oleh Cloud Translation API.
Switch to English

reddit_disentanglement

  • Deskripsi :

Dataset ini berisi ~ 3M pesan dari reddit. Setiap pesan diberi label dengan metadata. Tugasnya adalah memprediksi id dari pesan induknya di thread terkait. Setiap rekaman berisi daftar pesan dari satu utas. Catatan yang digandakan dan rusak dihapus dari kumpulan data.

Fitur-fiturnya adalah: - id - id pesan - teks - teks pesan - penulis - penulis pesan - create_utc - cap waktu UTC pesan - link_id - id posting yang terkait dengan komentar Target: - parent_id - id dari pesan induk di utas saat ini

Membagi Contoh
  • Fitur :
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=tf.string),
        'created_utc': Text(shape=(), dtype=tf.string),
        'id': Text(shape=(), dtype=tf.string),
        'link_id': Text(shape=(), dtype=tf.string),
        'parent_id': Text(shape=(), dtype=tf.string),
        'text': Text(shape=(), dtype=tf.string),
    }),
})
@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}