yelp_polarity_reviews

  • 説明

大規模なYelpレビューデータセット。これは、バイナリ感情分類のデータセットです。トレーニング用に560,000件の高極性のYelpレビュー、テスト用に38,000件のレビューを提供しています。 ORIGINYelpのレビューデータセットはYelpからのレビューで構成されています。これは、Yelp Dataset Challenge2015のデータから抽出されたものです。詳細については、を参照してくださいhttp://www.yelp.com/dataset

Yelpのレビュー極性データセットは、上記のデータセットからXiang Zhang(xiang.zhang@nyu.edu)によって作成されています。これは、次の論文でテキスト分類ベンチマークとして最初に使用されます:Xiang Zhang、Junbo Zhao、YannLeCun。テキスト分類のための文字レベルの畳み込みネットワーク。ニューラル情報処理システムの進歩28(NIPS 2015)。

説明

Yelpのレビュー極性データセットは、星1と2が負、3と4が正であると見なして作成されます。極性ごとに、280,000のトレーニングサンプルと19,000のテストサンプルがランダムに取得されます。合計で、560,000のtrainigサンプルと38,000のテストサンプルがあります。負の極性はクラス1、正のクラス2です。

ファイルtrain.csvおよびtest.csvには、すべてのトレーニングサンプルがコンマ区切りの値として含まれています。クラスインデックス(1と2)とレビューテキストに対応する2つの列があります。レビューテキストは二重引用符( ")を使用してエスケープされ、内部の二重引用符は2つの二重引用符(" ")でエスケープされます。新しい行はバックスラッシュとそれに続く" n "文字、つまり" "でエスケープされます。

スプリット
'test' 38,000
'train' 560,000
  • 特長
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})
  • 引用
@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}