Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

imdb_reviews

  • opis:

Duży zbiór danych recenzji filmów. Jest to zestaw danych do klasyfikacji nastrojów binarnych zawierający znacznie więcej danych niż poprzednie zestawy danych porównawczych. Udostępniamy zestaw 25 000 wysoce polarnych recenzji filmów do szkolenia i 25 000 do testów. Istnieją również dodatkowe nieoznakowane dane do wykorzystania.

Podział Przykłady
'test' 25 000
'train' 25 000
'unsupervised' 50 000
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews/zwykły_tekst (konfiguracja domyślna)

  • Opis config: Zwykły tekst

  • Cechy:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})

imdb_reviews/bajty

  • Config opis: kodowanie tekstu Zastosowania bajt poziomu z tfds.deprecated.text.ByteTextEncoder

  • Cechy:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<ByteTextEncoder vocab_size=257>),
})

imdb_reviews/subwords8k

  • Opis config: Używa tfds.deprecated.text.SubwordTextEncoder z 8k wielkości vocab

  • Cechy:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})

imdb_reviews/subwords32k

  • Opis config: Używa tfds.deprecated.text.SubwordTextEncoder z 32k wielkości vocab

  • Cechy:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})