Эта страница была переведа с помощью Cloud Translation API.
Switch to English

imdb_reviews

  • Описание :

Большой набор данных обзора фильмов. Это набор данных для двоичной классификации тональности, содержащий значительно больше данных, чем предыдущие наборы контрольных данных. Мы предоставляем набор из 25 000 крайне полярных обзоров фильмов для обучения и 25 000 для тестирования. Существуют также дополнительные немаркированные данные.

Трещина Примеры
'test' 25 000
'train' 25 000
'unsupervised' 50 000
  • Контролируемые ключи (см. as_supervised ): ('text', 'label')

  • Цитата :

@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews / plain_text (конфигурация по умолчанию)

  • Описание конфигурации : обычный текст

  • Особенности :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})

imdb_reviews / байты

  • Описание конфигурации : использует кодировку текста на tfds.deprecated.text.ByteTextEncoder уровне с tfds.deprecated.text.ByteTextEncoder

  • Особенности :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<ByteTextEncoder vocab_size=257>),
})

imdb_reviews / subwords8k

  • Описание конфигурации : использует tfds.deprecated.text.SubwordTextEncoder с размером tfds.deprecated.text.SubwordTextEncoder 8 КБ

  • Особенности :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})

imdb_reviews / subwords32k

  • Описание конфигурации : использует tfds.deprecated.text.SubwordTextEncoder с размером tfds.deprecated.text.SubwordTextEncoder

  • Особенности :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})