このページは Cloud Translation API によって翻訳されました。
Switch to English

imdb_reviews

  • 説明

大規模な映画レビューデータセット。これは、以前のベンチマークデータセットよりもかなり多くのデータを含むバイナリ感情分類のデータセットです。私たちは、トレーニング用に25,000の極性の高い映画レビュー、テスト用に25,000のセットを提供しています。使用する追加のラベルなしデータもあります。

スプリット
'test' 25,000
'train' 25,000
'unsupervised' 50,000
 @InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}
 

imdb_reviews / plain_text(デフォルトの構成)

  • 構成の説明 :プレーンテキスト

  • 特徴

 FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})
 

imdb_reviews / bytes

  • 構成の説明tfds.deprecated.text.ByteTextEncoderバイトレベルのテキストエンコーディングを使用します

  • 特徴

 FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<ByteTextEncoder vocab_size=257>),
})
 

imdb_reviews / subwords8k

  • 構成の説明 :8k tfds.deprecated.text.SubwordTextEncoderサイズのtfds.deprecated.text.SubwordTextEncoderを使用します

  • 特徴

 FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
 

imdb_reviews / subwords32k

  • 構成の説明 :32k tfds.deprecated.text.SubwordTextEncoderサイズでtfds.deprecated.text.SubwordTextEncoderを使用します

  • 特徴

 FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})