samsum

Descripción :

SAMSum Corpus contiene más de 16k diálogos de chat con resúmenes anotados manualmente.

Hay dos características:

diálogo: texto de diálogo.
resumen: resumen escrito por humanos del diálogo.
id: id de un ejemplo.
Documentación adicional : Explore en Papers With Code
Página de inicio: https://arxiv.org/src/1911.12237v2/anc
Código fuente : tfds.datasets.samsum.Builder
Versiones :
- 1.0.0 (predeterminado): Sin notas de la versión.
Tamaño de descarga : Unknown size
Tamaño del conjunto de datos : 10.71 MiB
Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en download_config.manual_dir (el valor predeterminado es ~/tensorflow_datasets/downloads/manual/ ):
Descargue https://arxiv.org/src/1911.12237v2/anc/corpus.7z, descomprima y coloque train.json, val.json y test.json en la carpeta del manual.
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'test'`	819
`'train'`	14,732
`'validation'`	818

Estructura de características :

FeaturesDict({
    'dialogue': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})

Documentación de características :

Rasgo	Clase	Tipo D
	CaracterísticasDict
diálogo	Texto	cadena
identificación	Texto	cadena
resumen	Texto	cadena

Teclas supervisadas (ver documento as_supervised ): ('dialogue', 'summary')
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):

Cita :

@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}

samsum Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

samsum