- Описание :
Большой набор данных обзора фильмов. Это набор данных для бинарной классификации настроений, содержащий значительно больше данных, чем предыдущие эталонные наборы данных. Мы предоставляем набор из 25 000 крайне полярных обзоров фильмов для обучения и 25 000 для тестирования. Существуют также дополнительные немаркированные данные для использования.
Домашняя страница : http://ai.stanford.edu/~amaas/data/sentiment/
Исходный код :
tfds.text.IMDBReviews
Версии :
-
1.0.0
(по умолчанию): новый раздельный API ( https://tensorflow.org/datasets/splits )
-
Размер загрузки :
80.23 MiB
Размер набора данных :
Unknown size
Автокэширование ( документация ): неизвестно
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 25000 |
'train' | 25000 |
'unsupervised' | 50 000 |
Контролируемые ключи (см.
as_supervised
doc ):('text', 'label')
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher},
title = {Learning Word Vectors for Sentiment Analysis},
booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2011},
address = {Portland, Oregon, USA},
publisher = {Association for Computational Linguistics},
pages = {142--150},
url = {http://www.aclweb.org/anthology/P11-1015}
}
imdb_reviews/plain_text (конфигурация по умолчанию)
Описание конфигурации : обычный текст
Особенности :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'text': Text(shape=(), dtype=tf.string),
})
- Примеры ( tfds.as_dataframe ):
imdb_reviews/байты
Описание конфигурации : использует кодировку текста на уровне байтов с помощью
tfds.deprecated.text.ByteTextEncoder
Особенности :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'text': Text(shape=(None,), dtype=tf.int64, encoder=<ByteTextEncoder vocab_size=257>),
})
- Примеры ( tfds.as_dataframe ):
imdb_reviews/subwords8k
Описание конфигурации : использует
tfds.deprecated.text.SubwordTextEncoder
с размером слов 8k.Особенности :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
- Примеры ( tfds.as_dataframe ):
imdb_reviews/подслова32k
Описание конфигурации : использует
tfds.deprecated.text.SubwordTextEncoder
с размером словарного запаса 32 КБ.Особенности :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
- Примеры ( tfds.as_dataframe ):