- תיאור :
NEWSROOM הוא מערך נתונים גדול להדרכה והערכה של מערכות סיכום. הוא מכיל 1.3 מיליון מאמרים וסיכומים שנכתבו על ידי סופרים ועורכים בחדרי החדשות של 38 פרסומים מרכזיים.
תכונות מערך הנתונים כוללות: - טקסט: קלט טקסט חדשותי. - סיכום: סיכום לחדשות. ותכונות נוספות: - כותרת: כותרת חדשות. - url: כתובת האתר של החדשות. - תאריך: תאריך המאמר. - צפיפות: צפיפות מיצוית. - כיסוי: כיסוי מיצוי. - דחיסה: יחס דחיסה. - density_bin: נמוך, בינוני, גבוה. - coverage_bin: מיצוי, מופשט. - compression_bin: נמוך, בינוני, גבוה.
ניתן להוריד מערך נתונים זה לפי בקשות. פתח את כל התוכן "train.jsonl, dev.josnl, test.jsonl" לתיקיית tfds.
דף הבית : https://summari.es
קוד מקור :
tfds.summarization.Newsroom
גרסאות :
-
1.0.0
(ברירת מחדל): אין הערות שחרור.
-
גודל הורדה :
Unknown size
גודל ערכת נתונים :
Unknown size
הוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל
download_config.manual_dir
(ברירת המחדל היא~/tensorflow_datasets/downloads/manual/
):
עליך להוריד את מערך הנתונים מ- https://summari.es/download/ דף האינטרנט דורש הרשמה. לאחר ההורדה, נא לשים את קבצי dev.jsonl, test.jsonl ו-train.jsonl ב-manual_dir.שמור אוטומטי במטמון ( תיעוד ): לא ידוע
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 108,862 |
'train' | 995,041 |
'validation' | 108,837 |
- מבנה תכונה :
FeaturesDict({
'compression': tf.float32,
'compression_bin': Text(shape=(), dtype=tf.string),
'coverage': tf.float32,
'coverage_bin': Text(shape=(), dtype=tf.string),
'date': Text(shape=(), dtype=tf.string),
'density': tf.float32,
'density_bin': Text(shape=(), dtype=tf.string),
'summary': Text(shape=(), dtype=tf.string),
'text': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
'url': Text(shape=(), dtype=tf.string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
דְחִיסָה | מוֹתֵחַ | tf.float32 | ||
compression_bin | טֶקסט | tf.string | ||
כיסוי | מוֹתֵחַ | tf.float32 | ||
פח_כיסוי | טֶקסט | tf.string | ||
תַאֲרִיך | טֶקסט | tf.string | ||
צְפִיפוּת | מוֹתֵחַ | tf.float32 | ||
density_bin | טֶקסט | tf.string | ||
סיכום | טֶקסט | tf.string | ||
טֶקסט | טֶקסט | tf.string | ||
כותרת | טֶקסט | tf.string | ||
כתובת אתר | טֶקסט | tf.string |
מפתחות בפיקוח (ראה
as_supervised
doc ):('text', 'summary')
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@article{Grusky_2018,
title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
url={http://dx.doi.org/10.18653/v1/n18-1065},
DOI={10.18653/v1/n18-1065},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 1 (Long Papers)},
publisher={Association for Computational Linguistics},
author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
year={2018}
}