ag_news_subset

  • Açıklama:

AG, 1 milyondan fazla haber makalesinden oluşan bir koleksiyondur. Haber makaleleri ComeToMyHead tarafından 1 yılı aşkın bir süredir 2000'den fazla haber kaynağından toplanmıştır. ComeToMyHead, Temmuz 2004'ten beri çalışan bir akademik haber arama motorudur. Veri seti, akademik topluluk tarafından veri madenciliği (kümeleme, sınıflandırma vb.), bilgi alma (sıralama, arama vb.), xml, veri sıkıştırma, veri akışı ve diğer ticari olmayan faaliyetler. Daha fazla bilgi için linke bakınız http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .

AG'nin haber konusu sınıflandırma veri seti, yukarıdaki veri setinden Xiang Zhang (xiang.zhang@nyu.edu) tarafından oluşturulmuştur. Aşağıdaki makalede bir metin sınıflandırma kıyaslaması olarak kullanılmıştır: Xiang Zhang, Junbo Zhao, Yann LeCun. Metin Sınıflandırması için Karakter Düzeyinde Evrişimli Ağlar. Sinirsel Bilgi İşleme Sistemlerindeki Gelişmeler 28 (NIPS 2015).

AG'nin haber konusu sınıflandırma veri seti, orijinal derlemden en büyük 4 sınıf seçilerek oluşturulmuştur. Her sınıf 30.000 eğitim örneği ve 1.900 test örneği içerir. Toplam eğitim örneği sayısı 120.000'dir ve 7.600 test edilir.

Bölmek Örnekler
'test' 7.600
'train' 120.000
  • Özellikler:
FeaturesDict({
    'description': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    'title': Text(shape=(), dtype=tf.string),
})
  • Citation:
@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}