ag_news_subset

설명 :

AG는 100만 개 이상의 뉴스 기사 모음입니다. ComeToMyHead는 1년 이상의 활동을 통해 2000개 이상의 뉴스 소스에서 뉴스 기사를 수집했습니다. ComeToMyHead는 2004년 7월부터 운영되고 있는 학술 뉴스 검색 엔진입니다. 데이터 마이닝(클러스터링, 분류 등), 정보 검색(순위, 검색 등), xml, 데이터 압축, 데이터 스트리밍 및 기타 비상업적 활동. 자세한 내용은 http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html 링크를 참조하십시오.

AG의 뉴스 주제 분류 데이터세트는 위의 데이터세트에서 Xiang Zhang(xiang.zhang@nyu.edu)이 구성했습니다. 다음 논문에서 텍스트 분류 벤치마크로 사용됩니다: Xiang Zhang, Junbo Zhao, Yann LeCun. 텍스트 분류를 위한 문자 수준 컨볼루션 네트워크. 신경 정보 처리 시스템의 발전 28(NIPS 2015).

AG의 뉴스 주제 분류 데이터 세트는 원본 말뭉치에서 가장 큰 4개의 클래스를 선택하여 구성됩니다. 각 클래스에는 30,000개의 훈련 샘플과 1,900개의 테스트 샘플이 포함되어 있습니다. 총 훈련 샘플 수는 120,000개이고 테스트 샘플 수는 7,600개입니다.

추가 문서 : 코드가 있는 논문에서 탐색
홈페이지 : https://arxiv.org/abs/1509.01626
소스코드 : tfds.datasets.ag_news_subset.Builder
버전 :
- 1.0.0 (기본값): 릴리스 정보가 없습니다.
다운로드 크기 : 11.24 MiB
데이터 세트 크기 : 35.79 MiB
자동 캐시 ( 문서 ): 예
분할 :

나뉘다	예
`'test'`	7,600
`'train'`	120,000

기능 구조 :

FeaturesDict({
    'description': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'title': Text(shape=(), dtype=string),
})

기능 문서 :

특징	수업	D타입
	풍모Dict
설명	텍스트	끈
상표	클래스 레이블	int64
제목	텍스트	끈

감독 키 ( as_supervised 문서 참조): ('description', 'label')
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):

인용 :

@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

ag_news_subset 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

ag_news_subset