imdb_reviews

  • opis :

Duży zbiór danych recenzji filmów. Jest to zestaw danych do binarnej klasyfikacji nastrojów, zawierający znacznie więcej danych niż poprzednie zestawy danych testów porównawczych. Zapewniamy zestaw 25 000 bardzo polarnych recenzji filmów do celów szkoleniowych i 25 000 do testów. Istnieją również dodatkowe nieoznakowane dane do wykorzystania.

Rozdzielać Przykłady
'test' 25 000
'train' 25 000
'unsupervised' 50 000
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews/plain_text (domyślna konfiguracja)

  • Opis konfiguracji : zwykły tekst

  • Rozmiar zestawu danych : 129.83 MiB

  • Struktura funkcji :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
etykieta Etykieta klasy int64
tekst Tekst strunowy

imdb_reviews/bytes

  • Opis konfiguracji : używa kodowania tekstu na poziomie bajtów za pomocą tfds.deprecated.text.ByteTextEncoder

  • Rozmiar zestawu danych : 129.88 MiB

  • Struktura funkcji :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
etykieta Etykieta klasy int64
tekst Tekst (Nic,) int64

imdb_reviews/subwords8k

  • Opis konfiguracji : Używa tfds.deprecated.text.SubwordTextEncoder o rozmiarze vocab 8k

  • Rozmiar zestawu danych : 54.72 MiB

  • Struktura funkcji :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
etykieta Etykieta klasy int64
tekst Tekst (Nic,) int64

imdb_reviews/subwords32k

  • Opis konfiguracji : używa tfds.deprecated.text.SubwordTextEncoder o rozmiarze vocab 32k

  • Rozmiar zestawu danych : 50.33 MiB

  • Struktura funkcji :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
etykieta Etykieta klasy int64
tekst Tekst (Nic,) int64