- תיאור:
BookSum: אוסף מערכי נתונים לסיכום סיפורי ארוך טווח
יישום זה תומך כיום רק בסיכומי ספרים ופרקים.
GitHub: https://github.com/salesforce/booksum
קוד מקור:
tfds.summarization.booksum.Booksum
גרסאות:
-
1.0.0
(ברירת המחדל): מהדורה ראשונית.
-
גודל ההורדה:
Unknown size
הוראות הורדה ידנית: מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני לתוך
download_config.manual_dir
(ברירת המחדל היא~/tensorflow_datasets/downloads/manual/
):1) עבור אל https://github.com/salesforce/booksum, וברח שלבים 1-3. מניחים את כל
booksum
פרויקט Git בתיקייה ידנית. 2) הורד את ספרי chapterized מן https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip ו unzip לתיקייה הידנית.
התיקייה הידנית צריכה להכיל את הספריות הבאות:
- `booksum/`
- `all_chapterized_books/`
Auto-במטמון ( תיעוד ): כן (מבחן, אימות), רק כאשר
shuffle_files=False
(הרכבת)מאפיינים:
FeaturesDict({
'document': Text(shape=(), dtype=tf.string),
'summary': Text(shape=(), dtype=tf.string),
})
מפתחות השגחה (ראה
as_supervised
doc ):('document', 'summary')
איור ( tfds.show_examples ): לא נתמך.
ציטוט:
@article{kryscinski2021booksum,
title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
author={Wojciech Kry{'s}ci{'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
year={2021},
eprint={2105.08209},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
ספרום/ספר (הגדרת ברירת מחדל)
תיאור Config: סיכום ספר ברמה
מערך נתונים גודל:
208.81 MiB
פיצולים:
לְפַצֵל | דוגמאות |
---|---|
'test' | 46 |
'train' | 312 |
'validation' | 45 |
- דוגמאות ( tfds.as_dataframe ):
ספרום/פרק
תיאור Config: סיכום ברמת הפרק
מערך נתונים גודל:
216.71 MiB
פיצולים:
לְפַצֵל | דוגמאות |
---|---|
'test' | 1,083 |
'train' | 6,524 |
'validation' | 891 |
- דוגמאות ( tfds.as_dataframe ):