ag_news_subset

  • Description:

AG est une collection de plus d'un million d'articles de presse. Les articles de presse ont été rassemblés à partir de plus de 2000 sources d'information par ComeToMyHead en plus d'un an d'activité. ComeToMyHead est un moteur de recherche d'actualités académiques qui fonctionne depuis juillet 2004. L'ensemble de données est fourni par la communauté académique à des fins de recherche en exploration de données (clustering, classification, etc.), recherche d'informations (classement, recherche, etc.), xml, compression de données, streaming de données et toute autre activité non commerciale. Pour plus d' informations, s'il vous plaît consulter le lien http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .

L'ensemble de données de classification des sujets d'actualité de l'AG est construit par Xiang Zhang (xiang.zhang@nyu.edu) à partir de l'ensemble de données ci-dessus. Il est utilisé comme référence de classification de textes dans l'article suivant : Xiang Zhang, Junbo Zhao, Yann LeCun. Réseaux convolutifs au niveau des caractères pour la classification de texte. Avancées dans les systèmes de traitement de l'information neuronale 28 (NIPS 2015).

L'ensemble de données de classification des sujets d'actualité de l'AG est construit en choisissant les 4 plus grandes classes du corpus d'origine. Chaque classe contient 30 000 échantillons de formation et 1 900 échantillons de test. Le nombre total d'échantillons d'apprentissage est de 120 000 et les tests de 7 600.

Diviser Exemples
'test' 7 600
'train' 120 000
  • Caractéristiques:
FeaturesDict({
    'description': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    'title': Text(shape=(), dtype=tf.string),
})
  • citation:
@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}