ag_news_subset

  • 説明

AGは100万を超えるニュース記事のコレクションです。ニュース記事は、1年以上の活動でComeToMyHeadによって2000以上のニュースソースから収集されました。 ComeToMyHeadは、2004年7月から稼働している学術ニュース検索エンジンです。データデータは、データマイニング(クラスタリング、分類など)、情報検索(ランク付け、検索など)、xml、データ圧縮、データストリーミング、およびその他の非営利活動。詳細については、リンクを参照してくださいhttp://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html

AGのニューストピック分類データセットは、上記のデータセットからXiang Zhang(xiang.zhang@nyu.edu)によって構築されています。これは、次の論文でテキスト分類ベンチマークとして使用されています:Xiang Zhang、Junbo Zhao、YannLeCun。テキスト分類のための文字レベルの畳み込みネットワーク。ニューラル情報処理システムの進歩28(NIPS 2015)。

AGのニューストピック分類データセットは、元のコーパスから4つの最大クラスを選択することによって構築されます。各クラスには、30,000のトレーニングサンプルと1,900のテストサンプルが含まれています。トレーニングサンプルの総数は120,000で、テストは7,600です。

スプリット
'test' 7,600
'train' 120,000
  • 特長
FeaturesDict({
    'description': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    'title': Text(shape=(), dtype=tf.string),
})
  • 引用
@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}