סכום ספרים

  • תיאור :

BookSum: אוסף של מערכי נתונים לסיכום סיפורי ארוך צורה

יישום זה תומך כרגע רק בסיכומי ספרים ופרק.

GitHub: https://github.com/salesforce/booksum

התיקיה הידנית צריכה להכיל את הספריות הבאות:

- `booksum/`
- `all_chapterized_books/`
  • שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, אימות), רק כאשר shuffle_files=False (רכבת)

  • מבנה תכונה :

FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מסמך טֶקסט חוּט
סיכום טֶקסט חוּט
@article{kryscinski2021booksum,
      title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
      author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
      year={2021},
      eprint={2105.08209},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

סכום ספרים/ספר (תצורת ברירת מחדל)

  • תיאור תצורה : סיכום ברמת הספר

  • גודל מערך נתונים : 208.81 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 46
'train' 312
'validation' 45

סכום ספרים/פרק

  • תיאור תצורה : סיכום ברמת הפרק

  • גודל ערכת נתונים: 216.71 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,083
'train' 6,524
'validation' 891