reddit_tifu

  • תיאור :

מערך הנתונים של Reddit, כאשר TIFU מציין את השם של subbreddit /r/tifu. כפי שהוגדר בפרסום, סגנון "קצר" משתמש בכותרת כסיכום ו"ארוך" משתמש ב-tldr כתקציר.

התכונות כוללות:

  • מסמך: פרסם טקסט ללא tldr.
  • tldr: קו tldr.
  • כותרת: כותרת חתוכה ללא tldr.
  • עליות: הצבעות בעד.
  • ציון: ציון.
  • num_comments: מספר תגובות.
  • upvote_ratio: יחס הצבעה כלפי מעלה.

  • תיעוד נוסף : חקור על ניירות עם קוד

  • דף הבית : https://github.com/ctr4si/MMN

  • קוד מקור : tfds.datasets.reddit_tifu.Builder

  • גרסאות :

    • 1.1.0 : הסר מחרוזות מסמכים וסיכום ריקים.
    • 1.1.1 : הוסף פיצולי רכבת, פיתוח ובדיקה (80/10/10) המשמשים ב-PEGASUS ( https://arxiv.org/abs/1912.08777 ) בתצורה נפרדת. אלה נוצרו באופן אקראי באמצעות פונקציית הפיצול tfds ומשוחררים כדי להבטיח שהתוצאות ב-Reddit Tifu Long ניתנות לשחזור וניתנות להשוואה. הוסף גם id לנקודות הנתונים.
    • 1.1.2 (ברירת מחדל): פיצולים מתוקנים הועלו.
  • מבנה תכונה :

FeaturesDict({
    'documents': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'num_comments': float32,
    'score': float32,
    'title': Text(shape=(), dtype=string),
    'tldr': Text(shape=(), dtype=string),
    'ups': float32,
    'upvote_ratio': float32,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מסמכים טֶקסט חוּט
תְעוּדַת זֶהוּת טֶקסט חוּט
num_comments מוֹתֵחַ לצוף32
ציון מוֹתֵחַ לצוף32
כותרת טֶקסט חוּט
tldr טֶקסט חוּט
יו פי אס מוֹתֵחַ לצוף32
יחס_הצבעה מעלה מוֹתֵחַ לצוף32
@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/short (תצורת ברירת מחדל)

  • תיאור תצורה : שימוש בכותרת כסיכום.

  • גודל הורדה : 639.54 MiB

  • גודל ערכת נתונים: 141.46 MiB

  • שמור אוטומטי במטמון ( תיעוד ): רק כאשר shuffle_files=False (רכבת)

  • פיצולים :

לְפַצֵל דוגמאות
'train' 79,740

reddit_tifu/long

  • תיאור תצורה : שימוש ב-TLDR כסיכום.

  • גודל הורדה : 639.54 MiB

  • גודל מערך נתונים : 93.10 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 42,139

reddit_tifu/long_split

  • תיאור תצורה : שימוש ב-TLDR כסיכום והחזרת רכבת/בדיקה/פיתוח.

  • גודל הורדה : 639.94 MiB

  • גודל מערך נתונים : 93.10 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 4,214
'train' 33,711
'validation' 4,214