ag_news_subset

  • 설명 :

AG는 100만 개 이상의 뉴스 기사 모음입니다. ComeToMyHead는 1년 이상의 활동을 통해 2000개 이상의 뉴스 소스에서 뉴스 기사를 수집했습니다. ComeToMyHead는 2004년 7월부터 운영되고 있는 학술 뉴스 검색 엔진입니다. 데이터 마이닝(클러스터링, 분류 등), 정보 검색(순위, 검색 등), xml, 데이터 압축, 데이터 스트리밍 및 기타 비상업적 활동. 자세한 내용은 http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html 링크를 참조하십시오.

AG의 뉴스 주제 분류 데이터세트는 위의 데이터세트에서 Xiang Zhang(xiang.zhang@nyu.edu)이 구성했습니다. 다음 논문에서 텍스트 분류 벤치마크로 사용됩니다: Xiang Zhang, Junbo Zhao, Yann LeCun. 텍스트 분류를 위한 문자 수준 컨볼루션 네트워크. 신경 정보 처리 시스템의 발전 28(NIPS 2015).

AG의 뉴스 주제 분류 데이터 세트는 원본 말뭉치에서 가장 큰 4개의 클래스를 선택하여 구성됩니다. 각 클래스에는 30,000개의 훈련 샘플과 1,900개의 테스트 샘플이 포함되어 있습니다. 총 훈련 샘플 수는 120,000개이고 테스트 샘플 수는 7,600개입니다.

나뉘다
'test' 7,600
'train' 120,000
  • 기능 구조 :
FeaturesDict({
    'description': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'title': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
설명 텍스트
상표 클래스 레이블 int64
제목 텍스트
  • 인용 :
@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}