ag_news_subset

  • Mô tả :

AG là tập hợp của hơn 1 triệu bài báo. Tin bài được ComeToMyHead tổng hợp từ hơn 2000 nguồn tin trong hơn 1 năm hoạt động. ComeToMyHead là một công cụ tìm kiếm tin tức học thuật đã hoạt động từ tháng 7 năm 2004. Bộ dữ liệu được cung cấp bởi cộng đồng học thuật cho mục đích nghiên cứu về khai thác dữ liệu (phân cụm, phân loại, v.v.), truy xuất thông tin (xếp hạng, tìm kiếm, v.v.), xml, nén dữ liệu, truyền dữ liệu và bất kỳ hoạt động phi thương mại nào khác. Để biết thêm thông tin, vui lòng tham khảo liên kết http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .

Bộ dữ liệu phân loại chủ đề tin tức của AG được xây dựng bởi Xiang Zhang (xiang.zhang@nyu.edu) từ bộ dữ liệu trên. Nó được sử dụng làm tiêu chuẩn phân loại văn bản trong bài báo sau: Xiang Zhang, Junbo Zhao, Yann LeCun. Mạng tích chập cấp độ ký tự để phân loại văn bản. Những tiến bộ trong Hệ thống xử lý thông tin thần kinh 28 (NIPS 2015).

Bộ dữ liệu phân loại chủ đề tin tức của AG được xây dựng bằng cách chọn 4 lớp lớn nhất từ ​​kho văn bản gốc. Mỗi lớp chứa 30.000 mẫu đào tạo và 1.900 mẫu thử nghiệm. Tổng số mẫu đào tạo là 120.000 và kiểm tra 7.600.

Tách ra ví dụ
'test' 7.600
'train' 120.000
  • Cấu trúc tính năng :
FeaturesDict({
    'description': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'title': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
sự mô tả Chữ sợi dây
nhãn mác LớpNhãn int64
Tiêu đề Chữ sợi dây
  • trích dẫn :
@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}