reddit_tifu

  • תיאור :

מערך הנתונים של Reddit, כאשר TIFU מציין את השם של subbreddit /r/tifu. כפי שהוגדר בפרסום, styel "קצר" משתמש בכותרת כסיכום ו"ארוך" משתמש ב-tldr כתקציר.

התכונות כוללות: - מסמך: פוסט טקסט ללא tldr. - tldr: קו tldr. - כותרת: כותרת חתוכה ללא tldr. - עליות: הצבעות בעד. - ציון: ציון. - num_comments: מספר תגובות. - upvote_ratio: יחס הצבעה כלפי מעלה.

FeaturesDict({
    'documents': Text(shape=(), dtype=tf.string),
    'num_comments': tf.float32,
    'score': tf.float32,
    'title': Text(shape=(), dtype=tf.string),
    'tldr': Text(shape=(), dtype=tf.string),
    'ups': tf.float32,
    'upvote_ratio': tf.float32,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מסמכים טֶקסט tf.string
num_comments מוֹתֵחַ tf.float32
ציון מוֹתֵחַ tf.float32
כותרת טֶקסט tf.string
tldr טֶקסט tf.string
יו פי אס מוֹתֵחַ tf.float32
יחס_הצבעה מעלה מוֹתֵחַ tf.float32
@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/short (תצורת ברירת מחדל)

  • תיאור תצורה : שימוש בכותרת כסיכום.

  • פיצולים :

לְפַצֵל דוגמאות
'train' 79,740

reddit_tifu/long

  • תיאור תצורה : שימוש ב-TLDR כסיכום.

  • פיצולים :

לְפַצֵל דוגמאות
'train' 42,139