Google I/O bir tamamlamadır! TensorFlow oturumlarını takip edin Oturumları görüntüleyin

imdb_reviews

  • Açıklama :

Büyük Film İnceleme Veri Kümesi. Bu, önceki kıyaslama veri kümelerinden önemli ölçüde daha fazla veri içeren ikili duyarlılık sınıflandırması için bir veri kümesidir. Eğitim için 25.000 ve test için 25.000 yüksek düzeyde kutupsal film incelemesi sağlıyoruz. Ayrıca kullanım için etiketlenmemiş ek veriler de vardır.

Bölmek Örnekler
'test' 25.000
'train' 25.000
'unsupervised' 50.000
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews/plain_text (varsayılan yapılandırma)

  • Yapılandırma açıklaması : Düz metin

  • Özellikler :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})

imdb_reviews/bayt

  • Yapılandırma açıklaması : tfds.deprecated.text.ByteTextEncoder ile bayt düzeyinde metin kodlamasını kullanır

  • Özellikler :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<ByteTextEncoder vocab_size=257>),
})

imdb_reviews/alt kelimeler8k

  • Yapılandırma açıklaması : 8k kelime boyutuyla tfds.deprecated.text.SubwordTextEncoder kullanır

  • Özellikler :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})

imdb_reviews/subwords32k

  • Yapılandırma açıklaması : 32k kelime boyutuyla tfds.deprecated.text.SubwordTextEncoder kullanır

  • Özellikler :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})