- Описание:
BookSum: набор наборов данных для подробного описания повествования
Эта реализация в настоящее время поддерживает только резюме книг и глав.
GitHub: https://github.com/salesforce/booksum
Домашняя страница: https://github.com/salesforce/booksum
Исходный код:
tfds.summarization.booksum.Booksum
Версии:
-
1.0.0
( по умолчанию): Первый выпуск.
-
Размер загрузки:
Unknown size
Руководство по эксплуатации скачать: Этот набор данных требует от вас , чтобы загрузить исходные данные вручную в
download_config.manual_dir
( по умолчанию~/tensorflow_datasets/downloads/manual/
):1) Перейти к https://github.com/salesforce/booksum, и запустить шаги 1-3. Поместите весь
booksum
GIT проект в ручной папке. 2) Скачать chapterized книги из https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip и распаковать в папку вручную.
Папка с инструкциями должна содержать следующие каталоги:
- `booksum/`
- `all_chapterized_books/`
Авто-кэшируются ( документация ): Да (испытание, проверка), только когда
shuffle_files=False
(поезд)Особенности:
FeaturesDict({
'document': Text(shape=(), dtype=tf.string),
'summary': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (см
as_supervised
документ ):('document', 'summary')
Рис ( tfds.show_examples ): Не поддерживается.
Образец цитирования:
@article{kryscinski2021booksum,
title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
author={Wojciech Kry{'s}ci{'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
year={2021},
eprint={2105.08209},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
bookum / book (конфигурация по умолчанию)
Описание Config: Книга уровня реферирования
Dataset Размер:
208.81 MiB
расколы:
Расколоть | Примеры |
---|---|
'test' | 46 |
'train' | 312 |
'validation' | 45 |
- Примеры ( tfds.as_dataframe ):
Книжная сумма / глава
Описание Config: глава уровня реферирования
Dataset Размер:
216.71 MiB
расколы:
Расколоть | Примеры |
---|---|
'test' | 1,083 |
'train' | 6 524 |
'validation' | 891 |
- Примеры ( tfds.as_dataframe ):