Sintonize-se com as primeiras mulheres em ML Simpósio esta terça-feira 19 out às 9h PST Register now

ag_news_subset

  • Descrição:

AG é uma coleção de mais de 1 milhão de artigos de notícias. Artigos de notícias foram coletados de mais de 2.000 fontes de notícias por ComeToMyHead em mais de 1 ano de atividade. ComeToMyHead é um motor de busca de notícias acadêmicas que está em funcionamento desde julho de 2004. O conjunto de dados é fornecido pela comunidade acadêmica para fins de pesquisa em mineração de dados (agrupamento, classificação, etc), recuperação de informação (classificação, pesquisa, etc), xml, compressão de dados, streaming de dados e qualquer outra atividade não comercial. Para mais informações, por favor consulte o link http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .

O conjunto de dados de classificação de tópicos de notícias da AG foi construído por Xiang Zhang (xiang.zhang@nyu.edu) a partir do conjunto de dados acima. É usado como referência de classificação de texto no seguinte artigo: Xiang Zhang, Junbo Zhao, Yann LeCun. Redes convolucionais em nível de caractere para classificação de texto. Advances in Neural Information Processing Systems 28 (NIPS 2015).

O conjunto de dados de classificação de tópicos de notícias do AG é construído escolhendo as 4 maiores classes do corpus original. Cada classe contém 30.000 amostras de treinamento e 1.900 amostras de teste. O número total de amostras de treinamento é 120.000 e 7.600 testes.

Dividir Exemplos
'test' 7.600
'train' 120.000
  • Características:
FeaturesDict({
    'description': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    'title': Text(shape=(), dtype=tf.string),
})
  • citação:
@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}