O Dia da Comunidade de ML é dia 9 de novembro! Junte-nos para atualização de TensorFlow, JAX, e mais Saiba mais

samsum

  • Descrição:

SAMSum Corpus contém mais de 16 mil diálogos de bate-papo com resumos anotados manualmente.

Existem dois recursos:

  • diálogo: texto do diálogo.
  • resumo: resumo escrito por humanos do diálogo.
  • id: id de um exemplo.

  • Homepage: https://arxiv.org/src/1911.12237v2/anc

  • O código-fonte: tfds.summarization.Samsum

  • versões:

    • 1.0.0 (padrão): Não há notas de lançamento.
  • Tamanho do download: Unknown size

  • Dataset tamanho: 10.71 MiB

  • Instruções baixar o manual: Este conjunto de dados requer que você baixe os dados de origem manualmente para download_config.manual_dir (o padrão é ~/tensorflow_datasets/downloads/manual/ ):
    Baixar https://arxiv.org/src/1911.12237v2/anc/corpus.7z, descomprimir e lugar train.json, val.json e test.json na follder manual.

  • Cache-Auto ( documentação ): Sim

  • desdobramentos:

Dividir Exemplos
'test' 819
'train' 14.732
'validation' 818
  • Características:
FeaturesDict({
    'dialogue': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
})
  • citação:
@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}