pantalla de resumen

Descripción :

Conjunto de datos de resumen SummScreen, versión no anonimizada y no tokenizada.

Las divisiones y el filtrado de entrenamiento/val/prueba se basan en el conjunto de datos tokenizado final, pero las transcripciones y los resúmenes proporcionados se basan en el texto no tokenizado.

Hay dos características:

transcripción: transcripciones completas del episodio, cada línea de diálogo separada por líneas nuevas
recapitulación: resúmenes o resúmenes de episodios
Página de inicio: https://github.com/mingdachen/SummScreen
Código fuente : tfds.datasets.summscreen.Builder
Versiones :
- 1.0.0 (predeterminado): versión inicial.
Tamaño de la descarga : 841.27 MiB
Claves supervisadas (ver documento as_supervised ): ('transcript', 'recap')
Figura ( tfds.show_examples ): no compatible.
Cita :

@article{DBLP:journals/corr/abs-2104-07091,
  author    = {Mingda Chen and
               Zewei Chu and
               Sam Wiseman and
               Kevin Gimpel},
  title     = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
  journal   = {CoRR},
  volume    = {abs/2104.07091},
  year      = {2021},
  url       = {https://arxiv.org/abs/2104.07091},
  archivePrefix = {arXiv},
  eprint    = {2104.07091},
  timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

summscreen/fd (configuración predeterminada)

Descripción de la configuración : ForeverDreaming
Tamaño del conjunto de datos : 132.99 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'test'`	337
`'train'`	3,673
`'validation'`	338

Estructura de características :

FeaturesDict({
    'episode_number': Text(shape=(), dtype=string),
    'episode_title': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Text(shape=(), dtype=string),
})

Documentación de características :

Rasgo	Clase	Tipo D
	CaracterísticasDict
número_episodio	Texto	cuerda
episodio_titulo	Texto	cuerda
resumen	Texto	cuerda
mostrar título	Texto	cuerda
transcripción	Texto	cuerda
transcript_author	Texto	cuerda

Ejemplos ( tfds.as_dataframe ):

pantalla de resumen/tms

Descripción de la configuración : TVMegaSite
Tamaño del conjunto de datos : 592.53 MiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :

Separar	Ejemplos
`'test'`	1,793
`'train'`	18,915
`'validation'`	1,795

Estructura de características :

FeaturesDict({
    'episode_summary': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'recap_author': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Tensor(shape=(None,), dtype=string),
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
episodio_resumen	Texto		cuerda
resumen	Texto		cuerda
resumen_autor	Texto		cuerda
mostrar título	Texto		cuerda
transcripción	Texto		cuerda
transcript_author	Tensor	(Ninguno,)	cuerda

Ejemplos ( tfds.as_dataframe ):

pantalla de resumen Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

summscreen/fd (configuración predeterminada)

pantalla de resumen/tms

pantalla de resumen