- Deskripsi :
AG adalah kumpulan lebih dari 1 juta artikel berita. Artikel berita telah dikumpulkan dari lebih dari 2000 sumber berita oleh ComeToMyHead dalam lebih dari 1 tahun aktivitas. ComeToMyHead adalah mesin pencari berita akademis yang telah berjalan sejak Juli 2004. Dataset disediakan oleh komunitas akademis untuk keperluan penelitian di data mining (clustering, klasifikasi, dll), pencarian informasi (ranking, pencarian, dll), xml, kompresi data, streaming data, dan aktivitas non-komersial lainnya. Untuk informasi lebih lanjut, silakan merujuk ke tautan http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .
Dataset klasifikasi topik berita AG dibuat oleh Xiang Zhang (xiang.zhang@nyu.edu) dari set data di atas. Ini digunakan sebagai patokan klasifikasi teks dalam makalah berikut: Xiang Zhang, Junbo Zhao, Yann LeCun. Jaringan Konvolusional Tingkat Karakter untuk Klasifikasi Teks. Kemajuan dalam Sistem Pemrosesan Informasi Neural 28 (NIPS 2015).
Dataset klasifikasi topik berita AG dibangun dengan memilih 4 kelas terbesar dari korpus asli. Setiap kelas berisi 30.000 sampel pelatihan dan 1.900 sampel pengujian. Jumlah sampel pelatihan 120.000 dan pengujian 7.600.
Beranda : https://arxiv.org/abs/1509.01626
Kode sumber :
tfds.text.AGNewsSubset
Versi :
-
1.0.0
(default): Tidak ada catatan rilis.
-
Ukuran unduhan :
11.24 MiB
Ukuran
35.79 MiB
data :35.79 MiB
Cache otomatis ( dokumentasi ): Ya
Split :
Membagi | Contoh |
---|---|
'test' | 7.600 |
'train' | 120.000 |
- Fitur :
FeaturesDict({
'description': Text(shape=(), dtype=tf.string),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
'title': Text(shape=(), dtype=tf.string),
})
Kunci yang diawasi (Lihat
as_supervised
doc ):('description', 'label')
Kutipan :
@misc{zhang2015characterlevel,
title={Character-level Convolutional Networks for Text Classification},
author={Xiang Zhang and Junbo Zhao and Yann LeCun},
year={2015},
eprint={1509.01626},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):