- Descripción :
NEWSROOM es un gran conjunto de datos para entrenar y evaluar sistemas de resumen. Contiene 1,3 millones de artículos y resúmenes escritos por autores y editores en las salas de redacción de 38 publicaciones importantes.
Las funciones del conjunto de datos incluyen: - texto: texto de noticias de entrada. - resumen: Resumen de la noticia. Y funciones adicionales: - title: título de la noticia. - url: url de la noticia. - fecha: fecha del artículo. - densidad: densidad extractiva. - cobertura: cobertura extractiva. - compresión: relación de compresión. - densidad_bin: bajo, medio, alto. -coverage_bin: extractivo, abstractivo. - compartimiento de compresión: bajo, medio, alto.
Este conjunto de datos se puede descargar a pedido. Descomprima todo el contenido "train.jsonl, dev.josnl, test.jsonl" en la carpeta tfds.
Página de inicio: https://summari.es
Código fuente :
tfds.summarization.Newsroom
Versiones :
-
1.0.0
(predeterminado): Sin notas de la versión.
-
Tamaño de descarga :
Unknown size
Tamaño del conjunto de datos :
Unknown size
Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en
download_config.manual_dir
(el valor predeterminado es~/tensorflow_datasets/downloads/manual/
):
Debe descargar el conjunto de datos de https://summari.es/download/ La página web requiere registro. Después de la descarga, coloque los archivos dev.jsonl, test.jsonl y train.jsonl en manual_dir.Auto-caché ( documentación ): Desconocido
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 108,862 |
'train' | 995,041 |
'validation' | 108,837 |
- Estructura de características :
FeaturesDict({
'compression': tf.float32,
'compression_bin': Text(shape=(), dtype=tf.string),
'coverage': tf.float32,
'coverage_bin': Text(shape=(), dtype=tf.string),
'date': Text(shape=(), dtype=tf.string),
'density': tf.float32,
'density_bin': Text(shape=(), dtype=tf.string),
'summary': Text(shape=(), dtype=tf.string),
'text': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
'url': Text(shape=(), dtype=tf.string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
compresión | Tensor | tf.float32 | ||
compresión_bin | Texto | tf.cadena | ||
cobertura | Tensor | tf.float32 | ||
cobertura_bin | Texto | tf.cadena | ||
fecha | Texto | tf.cadena | ||
densidad | Tensor | tf.float32 | ||
densidad_bin | Texto | tf.cadena | ||
resumen | Texto | tf.cadena | ||
texto | Texto | tf.cadena | ||
título | Texto | tf.cadena | ||
URL | Texto | tf.cadena |
Claves supervisadas (ver
as_supervised
doc ):('text', 'summary')
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@article{Grusky_2018,
title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
url={http://dx.doi.org/10.18653/v1/n18-1065},
DOI={10.18653/v1/n18-1065},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 1 (Long Papers)},
publisher={Association for Computational Linguistics},
author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
year={2018}
}