- תיאור:
מערך נתונים של סיכום קיצוני (XSum).
ישנן שתי תכונות: - מסמך: מאמר חדשותי קלט. - סיכום: סיכום משפט אחד של המאמר.
צורך הנתונים אלה כדי להוריד manaully והוציא כמתואר https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md צורך התיקייה "xsum-תמציות-מ-ההורדות" כדי להיות דחוס כמו 'xsum-extracts-from-downloads.tar.gz' והכנס לתיקייה שהורדה ידנית.
דף הבית: https://github.com/EdinburghNLP/XSum/tree/master/XSum-Dataset
קוד מקור:
tfds.summarization.Xsum
גרסאות:
-
1.0.0
: בסיס הנתונים ללא ניקוי. -
1.1.0
(ברירת המחדל): תוכן אינטרנט מסיר.
-
גודל ההורדה:
2.59 MiB
גודל בסיס הנתונים:
Unknown size
הוראות הורדה ידנית: מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני לתוך
download_config.manual_dir
(ברירת המחדל היא~/tensorflow_datasets/downloads/manual/
):
הוראות הורדה מפורטת (הדורשים הפעלה של סקריפט מותאם אישית) נמצאות כאן: https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md#running-the-download-and-extraction-scripts לאחר מכן , אנא הכנס את הקובץ xsum-extracts-from-downloads.tar.gz בקובץ manual_dir.Auto-במטמון ( תיעוד ): לא ידוע
פיצולים:
לְפַצֵל | דוגמאות |
---|---|
'test' | 11,301 |
'train' | 203,577 |
'validation' | 11,305 |
- מאפיינים:
FeaturesDict({
'document': Text(shape=(), dtype=tf.string),
'summary': Text(shape=(), dtype=tf.string),
})
מפתחות השגחה (ראה
as_supervised
doc ):('document', 'summary')
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט:
@article{Narayan2018DontGM,
title={Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization},
author={Shashi Narayan and Shay B. Cohen and Mirella Lapata},
journal={ArXiv},
year={2018},
volume={abs/1808.08745}
}