Эта страница была переведа с помощью Cloud Translation API.
Switch to English

самсум

  • Описание :

SAMSum Corpus содержит более 16 тыс. Диалогов в чате с аннотированными вручную резюме.

Есть две особенности:

  • диалог: текст диалога.
  • Резюме: человеческое письменное резюме диалога.
  • id: id примера.

  • Домашняя страница : https://arxiv.org/src/1911.12237v2/anc

  • Исходный код : tfds.summarization.Samsum

  • Версии :

    • 1.0.0 (по умолчанию): без примечаний к выпуску.
  • Размер загрузки : Unknown size

  • Размер набора данных : 10.71 MiB

  • Инструкции по загрузке вручную : для этого набора данных необходимо вручную загрузить исходные данные в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
    Загрузите https://arxiv.org/src/1911.12237v2/anc/corpus.7z, распакуйте и поместите train.json, val.json и test.json в папку с руководством.

  • Автоматическое кэширование ( документация ): Да

  • Сплит :

Трещина Примеры
'test' 819
'train' 14 732
'validation' 818
  • Особенности :
FeaturesDict({
    'dialogue': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
})
  • Контролируемые ключи (см. as_supervised doc ): ('dialogue', 'summary')

  • Цитата :

@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}