¡Reserva! Google I / O regresa del 18 al 20 de mayo Regístrese ahora
Se usó la API de Cloud Translation para traducir esta página.
Switch to English

imdb×

  • Descripción :

Gran conjunto de datos de revisión de películas. Este es un conjunto de datos para la clasificación binaria de sentimiento que contiene sustancialmente más datos que los conjuntos de datos de referencia anteriores. Ofrecemos un conjunto de 25.000 reseñas de películas muy polares para entrenamiento y 25.000 para pruebas. También hay datos adicionales sin etiquetar para su uso.

Separar Ejemplos de
'test' 25 000
'train' 25 000
'unsupervised' 50.000
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb× / plain_text (configuración predeterminada)

  • Descripción de la configuración : texto sin formato

  • Caracteristicas :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})

imdb billion / bytes

  • Descripción de la configuración : utiliza codificación de texto a nivel de bytes con tfds.deprecated.text.ByteTextEncoder

  • Caracteristicas :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<ByteTextEncoder vocab_size=257>),
})

imdb robust / subwords8k

  • Descripción de la configuración : utiliza tfds.deprecated.text.SubwordTextEncoder con un tamaño de vocabulario de 8k

  • Caracteristicas :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})

imdb robust / subwords32k

  • Descripción de la configuración : utiliza tfds.deprecated.text.SubwordTextEncoder con un tamaño de vocabulario de 32k

  • Caracteristicas :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})