Ayuda a proteger la Gran Barrera de Coral con TensorFlow en Kaggle Únete Challenge

imdb×

  • Descripción:

Gran conjunto de datos de revisión de películas. Este es un conjunto de datos para la clasificación binaria de sentimiento que contiene sustancialmente más datos que los conjuntos de datos de referencia anteriores. Ofrecemos un conjunto de 25.000 reseñas de películas muy polares para entrenamiento y 25.000 para pruebas. También hay datos adicionales sin etiquetar para su uso.

Separar Ejemplos de
'test' 25.000
'train' 25.000
'unsupervised' 50.000
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb× / plain_text (configuración predeterminada)

  • Descripción config: Texto sin formato

  • características:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})

imdb billion / bytes

  • Config: Descripción de texto utiliza la codificación a nivel de byte con tfds.deprecated.text.ByteTextEncoder

  • características:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<ByteTextEncoder vocab_size=257>),
})

imdb robust / subwords8k

  • Descripción config: Usos tfds.deprecated.text.SubwordTextEncoder con 8k tamaño de vocabulario

  • características:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})

imdb robust / subwords32k

  • Descripción config: Usos tfds.deprecated.text.SubwordTextEncoder con 32k tamaño de vocabulario

  • características:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})