самсум

Описание :

SAMSum Corpus содержит более 16 000 чат-диалогов с аннотированными вручную резюме.

Есть две особенности:

диалог: текст диалога.
резюме: написанное человеком краткое изложение диалога.
id: идентификатор примера.
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://arxiv.org/src/1911.12237v2/anc
Исходный код : tfds.datasets.samsum.Builder
Версии :
- 1.0.0 (по умолчанию): нет примечаний к выпуску.
Размер загрузки : Unknown size
Размер набора данных : 10.71 MiB .
Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
Загрузите https://arxiv.org/src/1911.12237v2/anc/corpus.7z, распакуйте и поместите train.json, val.json и test.json в папку с инструкциями.
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'test'`	819
`'train'`	14 732
`'validation'`	818

Структура функции :

FeaturesDict({
    'dialogue': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})

Документация по функциям :

Особенность	Учебный класс	Dтип
	ОсобенностиDict
диалог	Текст	нить
я бы	Текст	нить
резюме	Текст	нить

Контролируемые ключи (см. as_supervised doc ): ('dialogue', 'summary')
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):

Цитата :

@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}

самсум Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

самсум