חדר חדשות

  • תיאור :

NEWSROOM הוא מערך נתונים גדול להדרכה והערכה של מערכות סיכום. הוא מכיל 1.3 מיליון מאמרים וסיכומים שנכתבו על ידי סופרים ועורכים בחדרי החדשות של 38 פרסומים מרכזיים.

תכונות מערך הנתונים כוללות: - טקסט: קלט טקסט חדשותי. - סיכום: סיכום לחדשות. ותכונות נוספות: - כותרת: כותרת חדשות. - url: כתובת האתר של החדשות. - תאריך: תאריך המאמר. - צפיפות: צפיפות מיצוית. - כיסוי: כיסוי מיצוי. - דחיסה: יחס דחיסה. - density_bin: נמוך, בינוני, גבוה. - coverage_bin: מיצוי, מופשט. - compression_bin: נמוך, בינוני, גבוה.

ניתן להוריד מערך נתונים זה לפי בקשות. פתח את כל התוכן "train.jsonl, dev.josnl, test.jsonl" לתיקיית tfds.

  • דף הבית : https://summari.es

  • קוד מקור : tfds.summarization.Newsroom

  • גרסאות :

    • 1.0.0 (ברירת מחדל): אין הערות שחרור.
  • גודל הורדה : Unknown size

  • גודל ערכת נתונים : Unknown size

  • הוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל download_config.manual_dir (ברירת המחדל היא ~/tensorflow_datasets/downloads/manual/ ):
    עליך להוריד את מערך הנתונים מ- https://summari.es/download/ דף האינטרנט דורש הרשמה. לאחר ההורדה, נא לשים את קבצי dev.jsonl, test.jsonl ו-train.jsonl ב-manual_dir.

  • שמור אוטומטי במטמון ( תיעוד ): לא ידוע

  • פיצולים :

לְפַצֵל דוגמאות
'test' 108,862
'train' 995,041
'validation' 108,837
  • מבנה תכונה :
FeaturesDict({
    'compression': tf.float32,
    'compression_bin': Text(shape=(), dtype=tf.string),
    'coverage': tf.float32,
    'coverage_bin': Text(shape=(), dtype=tf.string),
    'date': Text(shape=(), dtype=tf.string),
    'density': tf.float32,
    'density_bin': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
דְחִיסָה מוֹתֵחַ tf.float32
compression_bin טֶקסט tf.string
כיסוי מוֹתֵחַ tf.float32
פח_כיסוי טֶקסט tf.string
תַאֲרִיך טֶקסט tf.string
צְפִיפוּת מוֹתֵחַ tf.float32
density_bin טֶקסט tf.string
סיכום טֶקסט tf.string
טֶקסט טֶקסט tf.string
כותרת טֶקסט tf.string
כתובת אתר טֶקסט tf.string
  • ציטוט :
@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}