Halaman ini diterjemahkan oleh Cloud Translation API.
Switch to English

ag_news_subset

  • Deskripsi :

AG adalah kumpulan lebih dari 1 juta artikel berita. Artikel berita telah dikumpulkan dari lebih dari 2000 sumber berita oleh ComeToMyHead dalam lebih dari 1 tahun aktivitas. ComeToMyHead adalah mesin pencari berita akademis yang telah berjalan sejak Juli 2004. Dataset disediakan oleh komunitas akademis untuk keperluan penelitian di data mining (clustering, klasifikasi, dll), pencarian informasi (ranking, pencarian, dll), xml, kompresi data, streaming data, dan aktivitas non-komersial lainnya. Untuk informasi lebih lanjut, silakan merujuk ke tautan http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .

Dataset klasifikasi topik berita AG dibuat oleh Xiang Zhang (xiang.zhang@nyu.edu) dari set data di atas. Ini digunakan sebagai patokan klasifikasi teks dalam makalah berikut: Xiang Zhang, Junbo Zhao, Yann LeCun. Jaringan Konvolusional Tingkat Karakter untuk Klasifikasi Teks. Kemajuan dalam Sistem Pemrosesan Informasi Neural 28 (NIPS 2015).

Dataset klasifikasi topik berita AG dibangun dengan memilih 4 kelas terbesar dari korpus asli. Setiap kelas berisi 30.000 sampel pelatihan dan 1.900 sampel pengujian. Jumlah sampel pelatihan 120.000 dan pengujian 7.600.

Membagi Contoh
'test' 7.600
'train' 120.000
  • Fitur :
FeaturesDict({
    'description': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    'title': Text(shape=(), dtype=tf.string),
})
@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}