sala de redacción

  • Descripción :

NEWSROOM es un gran conjunto de datos para entrenar y evaluar sistemas de resumen. Contiene 1,3 millones de artículos y resúmenes escritos por autores y editores en las salas de redacción de 38 publicaciones importantes.

Las funciones del conjunto de datos incluyen: - texto: texto de noticias de entrada. - resumen: Resumen de la noticia. Y funciones adicionales: - title: título de la noticia. - url: url de la noticia. - fecha: fecha del artículo. - densidad: densidad extractiva. - cobertura: cobertura extractiva. - compresión: relación de compresión. - densidad_bin: bajo, medio, alto. -coverage_bin: extractivo, abstractivo. - compartimiento de compresión: bajo, medio, alto.

Este conjunto de datos se puede descargar a pedido. Descomprima todo el contenido "train.jsonl, dev.josnl, test.jsonl" en la carpeta tfds.

  • Página de inicio: https://summari.es

  • Código fuente : tfds.summarization.Newsroom

  • Versiones :

    • 1.0.0 (predeterminado): Sin notas de la versión.
  • Tamaño de descarga : Unknown size

  • Tamaño del conjunto de datos : Unknown size

  • Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en download_config.manual_dir (el valor predeterminado es ~/tensorflow_datasets/downloads/manual/ ):
    Debe descargar el conjunto de datos de https://summari.es/download/ La página web requiere registro. Después de la descarga, coloque los archivos dev.jsonl, test.jsonl y train.jsonl en manual_dir.

  • Auto-caché ( documentación ): Desconocido

  • Divisiones :

Separar Ejemplos
'test' 108,862
'train' 995,041
'validation' 108,837
  • Estructura de características :
FeaturesDict({
    'compression': tf.float32,
    'compression_bin': Text(shape=(), dtype=tf.string),
    'coverage': tf.float32,
    'coverage_bin': Text(shape=(), dtype=tf.string),
    'date': Text(shape=(), dtype=tf.string),
    'density': tf.float32,
    'density_bin': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
compresión Tensor tf.float32
compresión_bin Texto tf.cadena
cobertura Tensor tf.float32
cobertura_bin Texto tf.cadena
fecha Texto tf.cadena
densidad Tensor tf.float32
densidad_bin Texto tf.cadena
resumen Texto tf.cadena
texto Texto tf.cadena
título Texto tf.cadena
URL Texto tf.cadena
  • Cita :
@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}