reddit_disentanglement

  • תיאור :

מערך הנתונים הזה מכיל ~3 מיליון הודעות מ-reddit. כל הודעה מסומנת במטא נתונים. המשימה היא לחזות את המזהה של הודעת האב שלה בשרשור המתאים. כל רשומה מכילה רשימה של הודעות משרשור אחד. רשומות משוכפלות ושבורות מוסרות ממערך הנתונים.

התכונות הן:

  • מזהה - מזהה הודעה
  • טקסט - טקסט הודעה
  • מחבר - מחבר הודעה
  • create_utc - חותמת זמן של הודעה UTC
  • link_id - מזהה הפוסט שאליו מתייחסת התגובה

יַעַד:

  • parent_id - מזהה הודעת האב בשרשור הנוכחי

  • דף הבית : https://github.com/henghuiz/MaskedHierarchicalTransformer

  • קוד מקור : tfds.datasets.reddit_disentanglement.Builder

  • גרסאות :

    • 2.0.0 (ברירת מחדל): אין הערות שחרור.
  • גודל הורדה : Unknown size

  • גודל ערכת נתונים : Unknown size

  • הוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל download_config.manual_dir (ברירת המחדל היא ~/tensorflow_datasets/downloads/manual/ ):
    הורד את https://github.com/henghuiz/MaskedHierarchicalTransformer, שחרר את הדחיסה של raw_data.zip והפעל את gener_dataset.py עם האישורים של reddit api שלך. לאחר מכן הכנס את train.csv, val.csv ו-test.csv מספריית הפלט לתוך התיקיה הידנית.

  • שמור אוטומטי במטמון ( תיעוד ): לא ידוע

  • פיצולים :

לְפַצֵל דוגמאות
  • מבנה תכונה :
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=string),
        'created_utc': Text(shape=(), dtype=string),
        'id': Text(shape=(), dtype=string),
        'link_id': Text(shape=(), dtype=string),
        'parent_id': Text(shape=(), dtype=string),
        'text': Text(shape=(), dtype=string),
    }),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
פְּתִיל סדר פעולות
חוט/מחבר טֶקסט חוּט
thread/created_utc טֶקסט חוּט
שרשור/מזהה טֶקסט חוּט
thread/link_id טֶקסט חוּט
שרשור/מזהה_הורה טֶקסט חוּט
חוט/טקסט טֶקסט חוּט
@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}