imdb_reviews

  • Description:

Ensemble de données de critique de films volumineux. Il s'agit d'un ensemble de données pour la classification des sentiments binaires contenant beaucoup plus de données que les ensembles de données de référence précédents. Nous fournissons un ensemble de 25 000 critiques de films très polaires pour la formation et 25 000 pour les tests. Il existe également des données supplémentaires non étiquetées à utiliser.

Diviser Exemples
'test' 25 000
'train' 25 000
'unsupervised' 50 000
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews/plain_text (configuration par défaut)

  • Description Config: Texte brut

  • Caractéristiques:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})

avis_imdb/octets

  • Description: Config utilise du texte au niveau des octets avec le codage tfds.deprecated.text.ByteTextEncoder

  • Caractéristiques:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<ByteTextEncoder vocab_size=257>),
})

imdb_reviews/subwords8k

  • Description Config: Utilise tfds.deprecated.text.SubwordTextEncoder avec 8k taille vocab

  • Caractéristiques:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})

imdb_reviews/subwords32k

  • Description Config: Utilise tfds.deprecated.text.SubwordTextEncoder avec 32k taille vocab

  • Caractéristiques:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})