samsum

Descriptif :

SAMSum Corpus contient plus de 16 000 dialogues de chat avec des résumés annotés manuellement.

Il existe deux fonctionnalités :

dialogue : texte du dialogue.
résumé : résumé écrit humain du dialogue.
id : identifiant d'un exemple.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://arxiv.org/src/1911.12237v2/anc
Code source : tfds.datasets.samsum.Builder
Versions :
- 1.0.0 (par défaut) : aucune note de version.
Taille du téléchargement : Unknown size
Taille du jeu de données : 10.71 MiB
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans download_config.manual_dir (par défaut ~/tensorflow_datasets/downloads/manual/ ) :
Téléchargez https://arxiv.org/src/1911.12237v2/anc/corpus.7z, décompressez et placez train.json, val.json et test.json dans le dossier du manuel.
Mise en cache automatique ( documentation ): Oui
Fractionnements :

Diviser	Exemples
`'test'`	819
`'train'`	14 732
`'validation'`	818

Structure des fonctionnalités :

FeaturesDict({
    'dialogue': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})

Documentation des fonctionnalités :

Caractéristique	Classe	Dtype
	FonctionnalitésDict
dialogue	Texte	chaîne de caractères
identifiant	Texte	chaîne de caractères
résumé	Texte	chaîne de caractères

Touches supervisées (Voir doc as_supervised ): ('dialogue', 'summary')
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):

Citation :

@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}

samsum Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

samsum