- Описание:
SAMSum Corpus содержит более 16 тыс. Диалогов чата с аннотациями, аннотированными вручную.
Есть две особенности:
- диалог: текст диалога.
- Резюме: человеческое письменное резюме диалога.
id: id примера.
Домашняя страница: https://arxiv.org/src/1911.12237v2/anc
Исходный код:
tfds.summarization.Samsum
Версии:
-
1.0.0
( по умолчанию): Нет Замечания к выпуску.
-
Размер загрузки:
Unknown size
Dataset Размер:
10.71 MiB
Руководство по эксплуатации скачать: Этот набор данных требует от вас , чтобы загрузить исходные данные вручную в
download_config.manual_dir
( по умолчанию~/tensorflow_datasets/downloads/manual/
):
Скачать https://arxiv.org/src/1911.12237v2/anc/corpus.7z, распаковывать и место train.json, val.json и test.json в ручном follder.Авто-кэшируются ( документация ): Да
расколы:
Расколоть | Примеры |
---|---|
'test' | 819 |
'train' | 14 732 |
'validation' | 818 |
- Особенности:
FeaturesDict({
'dialogue': Text(shape=(), dtype=tf.string),
'id': Text(shape=(), dtype=tf.string),
'summary': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (см
as_supervised
документа ):('dialogue', 'summary')
Рис ( tfds.show_examples ): Не поддерживается.
Примеры ( tfds.as_dataframe ):
- Образец цитирования:
@article{gliwa2019samsum,
title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
journal={arXiv preprint arXiv:1911.12237},
year={2019}
}