Aprenda o que há de mais recente em aprendizado de máquina, IA generativa e muito mais no WiML Symposium 2023 Registre-se

Esta página foi traduzida pela API Cloud Translation.

samsum

Descrição :

SAMSum Corpus contém mais de 16 mil diálogos de bate-papo com resumos anotados manualmente.

Existem duas características:

diálogo: texto do diálogo.
resumo: resumo escrito humano do diálogo.
id: id de um exemplo.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://arxiv.org/src/1911.12237v2/anc
Código -fonte: tfds.datasets.samsum.Builder
Versões :
- 1.0.0 (padrão): sem notas de versão.
Tamanho do download : Unknown size
Tamanho do conjunto de dados : 10.71 MiB
Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em download_config.manual_dir (o padrão é ~/tensorflow_datasets/downloads/manual/ ):
Baixe https://arxiv.org/src/1911.12237v2/anc/corpus.7z, descompacte e coloque train.json, val.json e test.json na pasta manual.
Cache automático ( documentação ): Sim
Divisões :

Dividir	Exemplos
`'test'`	819
`'train'`	14.732
`'validation'`	818

Estrutura de recursos :

FeaturesDict({
    'dialogue': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})

Documentação do recurso:

Funcionalidade	Aula	Tipo D
	RecursosDict
diálogo	Texto	fragmento
Eu iria	Texto	fragmento
resumo	Texto	fragmento

Chaves supervisionadas (Veja as_supervised doc ): ('dialogue', 'summary')
Figura ( tfds.show_examples ): Não compatível.
Exemplos ( tfds.as_dataframe ):

Citação :

@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}