Sintonizar con las primeras mujeres en ML Simposio este martes, 19 de octubre a 09 a.m. PST Registrar ahora

ag_news_subset

  • Descripción:

AG es una colección de más de 1 millón de artículos de noticias. ComeToMyHead ha recopilado artículos de más de 2000 fuentes de noticias en más de 1 año de actividad. ComeToMyHead es un motor de búsqueda de noticias académicas que se ha estado ejecutando desde julio de 2004. La comunidad académica proporciona el conjunto de datos con fines de investigación en minería de datos (agrupación, clasificación, etc.), recuperación de información (clasificación, búsqueda, etc.), xml, compresión de datos, transmisión de datos y cualquier otra actividad no comercial. Para obtener más información, consulte el enlace http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .

El conjunto de datos de clasificación de temas de noticias del AG es elaborado por Xiang Zhang (xiang.zhang@nyu.edu) a partir del conjunto de datos anterior. Se utiliza como referencia de clasificación de texto en el siguiente documento: Xiang Zhang, Junbo Zhao, Yann LeCun. Redes convolucionales a nivel de caracteres para clasificación de texto. Avances en los sistemas de procesamiento de información neuronal 28 (NIPS 2015).

El conjunto de datos de clasificación de temas de noticias del AG se construye eligiendo 4 clases más grandes del corpus original. Cada clase contiene 30.000 muestras de formación y 1.900 muestras de prueba. El número total de muestras de entrenamiento es de 120.000 y de pruebas de 7.600.

Separar Ejemplos de
'test' 7.600
'train' 120.000
  • características:
FeaturesDict({
    'description': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    'title': Text(shape=(), dtype=tf.string),
})
  • Cita:
@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}