ag_news_subset

Deskripsi :

AG adalah kumpulan lebih dari 1 juta artikel berita. Artikel berita telah dikumpulkan dari lebih dari 2000 sumber berita oleh ComeToMyHead selama lebih dari 1 tahun kegiatan. ComeToMyHead adalah mesin pencari berita akademik yang telah berjalan sejak Juli 2004. Dataset disediakan oleh komunitas akademik untuk tujuan penelitian dalam penambangan data (pengelompokan, klasifikasi, dll), pencarian informasi (peringkat, pencarian, dll), xml, kompresi data, streaming data, dan aktivitas non-komersial lainnya. Untuk informasi lebih lanjut, silakan merujuk ke tautan http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .

Kumpulan data klasifikasi topik berita AG dibangun oleh Xiang Zhang (xiang.zhang@nyu.edu) dari kumpulan data di atas. Ini digunakan sebagai tolok ukur klasifikasi teks dalam makalah berikut: Xiang Zhang, Junbo Zhao, Yann LeCun. Jaringan Konvolusional Tingkat Karakter untuk Klasifikasi Teks. Kemajuan dalam Sistem Pemrosesan Informasi Neural 28 (NIPS 2015).

Dataset klasifikasi topik berita AG dibangun dengan memilih 4 kelas terbesar dari korpus aslinya. Setiap kelas berisi 30.000 sampel pelatihan dan 1.900 sampel pengujian. Jumlah sampel pelatihan adalah 120.000 dan pengujian 7.600.

Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://arxiv.org/abs/1509.01626
Kode sumber : tfds.datasets.ag_news_subset.Builder
Versi :
- 1.0.0 (default): Tidak ada catatan rilis.
Ukuran unduhan : 11.24 MiB
Ukuran dataset : 35.79 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'test'`	7.600
`'train'`	120.000

Struktur fitur :

FeaturesDict({
    'description': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'title': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
keterangan	Teks	rangkaian
label	LabelKelas	int64
judul	Teks	rangkaian

Kunci yang diawasi (Lihat as_supervised doc ): ('description', 'label')
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):

Kutipan :

@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

ag_news_subset Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

ag_news_subset