Ajuda a proteger a Grande Barreira de Corais com TensorFlow em Kaggle Junte Desafio

imdb_reviews

  • Descrição:

Conjunto de dados de revisão de filme grande. Este é um conjunto de dados para classificação de sentimento binário contendo substancialmente mais dados do que os conjuntos de dados de referência anteriores. Oferecemos um conjunto de 25.000 críticas de filmes altamente polares para treinamento e 25.000 para teste. Há dados adicionais não rotulados para uso também.

Dividir Exemplos
'test' 25.000
'train' 25.000
'unsupervised' 50.000
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews / plain_text (configuração padrão)

  • A inscrição Config: Texto simples

  • Características:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})

imdb_reviews / bytes

  • Configuração Descrição: codificação de texto Usos em nível de byte com tfds.deprecated.text.ByteTextEncoder

  • Características:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<ByteTextEncoder vocab_size=257>),
})

imdb_reviews / subwords8k

  • Configuração Descrição: Usa tfds.deprecated.text.SubwordTextEncoder com o 8k tamanho vocab

  • Características:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})

imdb_reviews / subwords32k

  • Configuração Descrição: Usa tfds.deprecated.text.SubwordTextEncoder com 32k tamanho vocab

  • Características:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})