- תיאור :
מערך הנתונים של Reddit, כאשר TIFU מציין את השם של subbreddit /r/tifu. כפי שהוגדר בפרסום, סגנון "קצר" משתמש בכותרת כסיכום ו"ארוך" משתמש ב-tldr כתקציר.
התכונות כוללות:
- מסמך: פרסם טקסט ללא tldr.
- tldr: קו tldr.
- כותרת: כותרת חתוכה ללא tldr.
- עליות: הצבעות בעד.
- ציון: ציון.
- num_comments: מספר תגובות.
upvote_ratio: יחס הצבעה כלפי מעלה.
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://github.com/ctr4si/MMN
קוד מקור :
tfds.datasets.reddit_tifu.Builder
גרסאות :
-
1.1.0
: הסר מחרוזות מסמכים וסיכום ריקים. -
1.1.1
: הוסף פיצולי רכבת, פיתוח ובדיקה (80/10/10) המשמשים ב-PEGASUS ( https://arxiv.org/abs/1912.08777 ) בתצורה נפרדת. אלה נוצרו באופן אקראי באמצעות פונקציית הפיצול tfds ומשוחררים כדי להבטיח שהתוצאות ב-Reddit Tifu Long ניתנות לשחזור וניתנות להשוואה. הוסף גםid
לנקודות הנתונים. -
1.1.2
(ברירת מחדל): פיצולים מתוקנים הועלו.
-
מבנה תכונה :
FeaturesDict({
'documents': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'num_comments': float32,
'score': float32,
'title': Text(shape=(), dtype=string),
'tldr': Text(shape=(), dtype=string),
'ups': float32,
'upvote_ratio': float32,
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
מסמכים | טֶקסט | חוּט | ||
תְעוּדַת זֶהוּת | טֶקסט | חוּט | ||
num_comments | מוֹתֵחַ | לצוף32 | ||
ציון | מוֹתֵחַ | לצוף32 | ||
כותרת | טֶקסט | חוּט | ||
tldr | טֶקסט | חוּט | ||
יו פי אס | מוֹתֵחַ | לצוף32 | ||
יחס_הצבעה מעלה | מוֹתֵחַ | לצוף32 |
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@misc{kim2018abstractive,
title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
year={2018},
eprint={1811.00783},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
reddit_tifu/short (תצורת ברירת מחדל)
תיאור תצורה : שימוש בכותרת כסיכום.
גודל הורדה :
639.54 MiB
גודל ערכת נתונים:
141.46 MiB
שמור אוטומטי במטמון ( תיעוד ): רק כאשר
shuffle_files=False
(רכבת)פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 79,740 |
מפתחות בפיקוח (ראה
as_supervised
doc ):('documents', 'title')
דוגמאות ( tfds.as_dataframe ):
reddit_tifu/long
תיאור תצורה : שימוש ב-TLDR כסיכום.
גודל הורדה :
639.54 MiB
גודל מערך נתונים :
93.10 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 42,139 |
מפתחות בפיקוח (ראה
as_supervised
doc ):('documents', 'tldr')
דוגמאות ( tfds.as_dataframe ):
reddit_tifu/long_split
תיאור תצורה : שימוש ב-TLDR כסיכום והחזרת רכבת/בדיקה/פיתוח.
גודל הורדה :
639.94 MiB
גודל מערך נתונים :
93.10 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 4,214 |
'train' | 33,711 |
'validation' | 4,214 |
מפתחות בפיקוח (ראה
as_supervised
doc ):('documents', 'tldr')
דוגמאות ( tfds.as_dataframe ):