imdb_reviews

  • Açıklama :

Büyük Film İnceleme Veri Kümesi. Bu, önceki kıyaslama veri kümelerinden önemli ölçüde daha fazla veri içeren ikili duyarlılık sınıflandırması için bir veri kümesidir. Eğitim için 25.000 ve test için 25.000 yüksek düzeyde kutupsal film incelemesi sağlıyoruz. Ayrıca kullanım için etiketlenmemiş ek veriler de vardır.

Bölmek Örnekler
'test' 25.000
'train' 25.000
'unsupervised' 50.000
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews/plain_text (varsayılan yapılandırma)

  • Yapılandırma açıklaması : Düz metin

  • Özellik yapısı :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
etiket sınıf etiketi tf.int64
Metin Metin tf.string

imdb_reviews/bayt

  • Yapılandırma açıklaması : tfds.deprecated.text.ByteTextEncoder ile bayt düzeyinde metin kodlamasını kullanır

  • Özellik yapısı :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<ByteTextEncoder vocab_size=257>),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
etiket sınıf etiketi tf.int64
Metin Metin (Hiçbiri,) tf.int64

imdb_reviews/alt kelimeler8k

  • Yapılandırma açıklaması : 8k kelime boyutuyla tfds.deprecated.text.SubwordTextEncoder kullanır

  • Özellik yapısı :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
etiket sınıf etiketi tf.int64
Metin Metin (Hiçbiri,) tf.int64

imdb_reviews/subwords32k

  • Yapılandırma açıklaması : 32k kelime boyutuyla tfds.deprecated.text.SubwordTextEncoder kullanır

  • Özellik yapısı :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
etiket sınıf etiketi tf.int64
Metin Metin (Hiçbiri,) tf.int64