reddit_disentangle

  • תיאור:

מערך נתונים זה מכיל ~ 3 מיליון הודעות מ- reddit. כל הודעה מתויגת במטא נתונים. המשימה היא לחזות את מזהה המסר האב שלה בשרשור המקביל. כל רשומה מכילה רשימת הודעות משרשור אחד. רשומות כפולות ושבורות מוסרות ממערך הנתונים.

התכונות הן: - מזהה - מזהה הודעה - טקסט - טקסט הודעה - מחבר - מחבר הודעה - created_utc - הודעה חותמת זמן UTC - link_id - מזהה של ההודעה שהתגובה מתייחסת אליה יעד: - parent_id - מזהה של הודעת האב בשרשור הנוכחי.

  • דף הבית: https://github.com/henghuiz/MaskedHierarchicalTransformer

  • קוד מקור: tfds.text.RedditDisentanglement

  • גרסאות:

    • 2.0.0 (ברירת המחדל): הערות השחרור לא.
  • גודל ההורדה: Unknown size

  • גודל בסיס הנתונים: Unknown size

  • הוראות הורדה ידנית: מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני לתוך download_config.manual_dir (ברירת המחדל היא ~/tensorflow_datasets/downloads/manual/ ):
    הורד https://github.com/henghuiz/MaskedHierarchicalTransformer, לשחרר לחץ raw_data.zip וברח generate_dataset.py עם אישורי API reddit שלך. ואז הכניסו train.csv, val.csv ו- test.csv מתיקיית הפלט לתיקיה הידנית.

  • Auto-במטמון ( תיעוד ): לא ידוע

  • פיצולים:

לְפַצֵל דוגמאות
  • מאפיינים:
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=tf.string),
        'created_utc': Text(shape=(), dtype=tf.string),
        'id': Text(shape=(), dtype=tf.string),
        'link_id': Text(shape=(), dtype=tf.string),
        'parent_id': Text(shape=(), dtype=tf.string),
        'text': Text(shape=(), dtype=tf.string),
    }),
})
@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}