O Google I/O é um embrulho! Fique por dentro das sessões do TensorFlow Ver sessões

imdb_reviews

  • Descrição :

Grande conjunto de dados de revisão de filmes. Este é um conjunto de dados para classificação de sentimentos binários que contém substancialmente mais dados do que os conjuntos de dados de referência anteriores. Fornecemos um conjunto de 25.000 críticas de filmes altamente polares para treinamento e 25.000 para teste. Há dados adicionais não rotulados para uso também.

Dividir Exemplos
'test' 25.000
'train' 25.000
'unsupervised' 50.000
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews/plain_text (configuração padrão)

  • Descrição da configuração : texto simples

  • Características :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})

imdb_reviews/bytes

  • Descrição da configuração : usa codificação de texto em nível de byte com tfds.deprecated.text.ByteTextEncoder

  • Características :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<ByteTextEncoder vocab_size=257>),
})

imdb_reviews/subwords8k

  • Descrição da configuração : usa tfds.deprecated.text.SubwordTextEncoder com tamanho de vocabulário de 8k

  • Características :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})

imdb_reviews/subwords32k

  • Descrição da configuração : usa tfds.deprecated.text.SubwordTextEncoder com tamanho de vocabulário de 32k

  • Características :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})