Google I/O — это обертка! Наверстать упущенное в сеансах TensorFlow Просмотреть сеансы

imdb_reviews

  • Описание :

Большой набор данных обзора фильмов. Это набор данных для бинарной классификации настроений, содержащий значительно больше данных, чем предыдущие эталонные наборы данных. Мы предоставляем набор из 25 000 крайне полярных обзоров фильмов для обучения и 25 000 для тестирования. Существуют также дополнительные немаркированные данные для использования.

Расколоть Примеры
'test' 25000
'train' 25000
'unsupervised' 50 000
  • Контролируемые ключи (см. as_supervised doc ): ('text', 'label')

  • Рисунок ( tfds.show_examples ): не поддерживается.

  • Цитата :

@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews/plain_text (конфигурация по умолчанию)

  • Описание конфигурации : обычный текст

  • Особенности :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})

imdb_reviews/байты

  • Описание конфигурации : использует кодировку текста на уровне байтов с помощью tfds.deprecated.text.ByteTextEncoder

  • Особенности :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<ByteTextEncoder vocab_size=257>),
})

imdb_reviews/subwords8k

  • Описание конфигурации : использует tfds.deprecated.text.SubwordTextEncoder с размером слов 8k.

  • Особенности :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})

imdb_reviews/подслова32k

  • Описание конфигурации : использует tfds.deprecated.text.SubwordTextEncoder с размером словарного запаса 32 КБ.

  • Особенности :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})