samsum

  • Description:

SAMSum Corpus contient plus de 16 000 dialogues de discussion avec des résumés annotés manuellement.

Il y a deux fonctionnalités :

  • dialogue : texte de dialogue.
  • résumé : résumé écrit humain du dialogue.
  • id : id d'un exemple.

  • Page d' accueil: https://arxiv.org/src/1911.12237v2/anc

  • Code source: tfds.summarization.Samsum

  • versions:

    • 1.0.0 (par défaut): Aucune note de version.
  • Taille du téléchargement: Unknown size

  • Dataset Taille: 10.71 MiB

  • Instructions de téléchargement Manuel: Cet ensemble de données , vous devez télécharger les données source manuellement dans download_config.manual_dir (par défaut ~/tensorflow_datasets/downloads/manual/ ):
    Télécharger https://arxiv.org/src/1911.12237v2/anc/corpus.7z, décompressez et lieu train.json, val.json et test.json dans le follder manuel.

  • Auto-cache ( documentation ): Oui

  • scissions:

Diviser Exemples
'test' 819
'train' 14 732
'validation' 818
  • Caractéristiques:
FeaturesDict({
    'dialogue': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
})
  • citation:
@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}