samsum

  • Descripción :

SAMSum Corpus contiene más de 16k diálogos de chat con resúmenes anotados manualmente.

Hay dos características:

  • diálogo: texto de diálogo.
  • resumen: resumen escrito por humanos del diálogo.
  • id: id de un ejemplo.

  • Documentación adicional : Explore en Papers With Code

  • Página de inicio: https://arxiv.org/src/1911.12237v2/anc

  • Código fuente : tfds.datasets.samsum.Builder

  • Versiones :

    • 1.0.0 (predeterminado): Sin notas de la versión.
  • Tamaño de descarga : Unknown size

  • Tamaño del conjunto de datos : 10.71 MiB

  • Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en download_config.manual_dir (el valor predeterminado es ~/tensorflow_datasets/downloads/manual/ ):
    Descargue https://arxiv.org/src/1911.12237v2/anc/corpus.7z, descomprima y coloque train.json, val.json y test.json en la carpeta del manual.

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 819
'train' 14,732
'validation' 818
  • Estructura de características :
FeaturesDict({
    'dialogue': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
diálogo Texto cadena
identificación Texto cadena
resumen Texto cadena
  • Cita :
@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}