¡El Día de la Comunidad de ML es el 9 de noviembre! Únase a nosotros para recibir actualizaciones de TensorFlow, JAX, y más Más información

samsum

  • Descripción:

SAMSum Corpus contiene más de 16k diálogos de chat con resúmenes anotados manualmente.

Hay dos características:

  • diálogo: texto del diálogo.
  • resumen: resumen escrito humano del diálogo.
  • id: id de un ejemplo.

  • Inicio: https://arxiv.org/src/1911.12237v2/anc

  • El código fuente: tfds.summarization.Samsum

  • versiones:

    • 1.0.0 (por defecto): No hay notas de la versión.
  • Tamaño del paquete: Unknown size

  • Conjunto de datos de tamaño: 10.71 MiB

  • Las instrucciones de descarga manual: Este conjunto de datos se requiere para descargar los datos de origen manualmente en download_config.manual_dir (por defecto ~/tensorflow_datasets/downloads/manual/ ):
    Descargar https://arxiv.org/src/1911.12237v2/anc/corpus.7z, descomprimir y lugar train.json, val.json y test.json en el follder manual.

  • Auto-caché ( documentación ): Sí

  • Fraccionamientos:

Separar Ejemplos de
'test' 819
'train' 14,732
'validation' 818
  • características:
FeaturesDict({
    'dialogue': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
})
  • Cita:
@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}