pantalla de resumen

  • Descripción :

Conjunto de datos de resumen SummScreen, versión no anonimizada y no tokenizada.

Las divisiones y el filtrado de entrenamiento/val/prueba se basan en el conjunto de datos tokenizado final, pero las transcripciones y los resúmenes proporcionados se basan en el texto no tokenizado.

Hay dos características:

@article{DBLP:journals/corr/abs-2104-07091,
  author    = {Mingda Chen and
               Zewei Chu and
               Sam Wiseman and
               Kevin Gimpel},
  title     = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
  journal   = {CoRR},
  volume    = {abs/2104.07091},
  year      = {2021},
  url       = {https://arxiv.org/abs/2104.07091},
  archivePrefix = {arXiv},
  eprint    = {2104.07091},
  timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

summscreen/fd (configuración predeterminada)

  • Descripción de la configuración : ForeverDreaming

  • Tamaño del conjunto de datos : 132.99 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 337
'train' 3,673
'validation' 338
  • Estructura de características :
FeaturesDict({
    'episode_number': Text(shape=(), dtype=tf.string),
    'episode_title': Text(shape=(), dtype=tf.string),
    'recap': Text(shape=(), dtype=tf.string),
    'show_title': Text(shape=(), dtype=tf.string),
    'transcript': Text(shape=(), dtype=tf.string),
    'transcript_author': Text(shape=(), dtype=tf.string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
número_episodio Texto tf.cadena
episodio_título Texto tf.cadena
resumen Texto tf.cadena
mostrar título Texto tf.cadena
transcripción Texto tf.cadena
transcript_author Texto tf.cadena

pantalla de resumen/tms

  • Descripción de la configuración : TVMegaSite

  • Tamaño del conjunto de datos : 592.53 MiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'test' 1,793
'train' 18,915
'validation' 1,795
  • Estructura de características :
FeaturesDict({
    'episode_summary': Text(shape=(), dtype=tf.string),
    'recap': Text(shape=(), dtype=tf.string),
    'recap_author': Text(shape=(), dtype=tf.string),
    'show_title': Text(shape=(), dtype=tf.string),
    'transcript': Text(shape=(), dtype=tf.string),
    'transcript_author': Tensor(shape=(None,), dtype=tf.string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
episodio_resumen Texto tf.cadena
resumen Texto tf.cadena
resumen_autor Texto tf.cadena
mostrar título Texto tf.cadena
transcripción Texto tf.cadena
transcript_author Tensor (Ninguna,) tf.cadena