yelp_polarity_reviews

Описание :

Большой набор данных Yelp Review. Это набор данных для бинарной классификации настроений. Мы предоставляем набор из 560 000 крайне полярных обзоров визга для обучения и 38 000 для тестирования. ORIGIN Набор данных отзывов Yelp состоит из отзывов Yelp. Он извлечен из данных Yelp Dataset Challenge 2015. Для получения дополнительной информации см. http://www.yelp.com/dataset

Набор данных о полярности обзоров Yelp создан Сян Чжаном (xiang.zhang@nyu.edu) на основе приведенного выше набора данных. Впервые он используется в качестве эталона классификации текста в следующей статье: Xiang Zhang, Junbo Zhao, Yann LeCun. Сверточные сети на уровне символов для классификации текстов. Достижения в области систем обработки нейронной информации 28 (NIPS 2015).

ОПИСАНИЕ

Набор данных о полярности обзоров Yelp построен с учетом звезд 1 и 2 как отрицательных, а звезд 3 и 4 как положительных. Для каждой полярности случайным образом берется 280 000 обучающих и 19 000 тестовых выборок. Всего имеется 560 000 обучающих и 38 000 тестовых образцов. Отрицательная полярность относится к классу 1, а положительная — к классу 2.

Файлы train.csv и test.csv содержат все обучающие выборки в виде значений, разделенных запятыми. В них 2 столбца, соответствующие индексу класса (1 и 2) и тексту отзыва. Тексты обзора заключаются в двойные кавычки ("), а любые внутренние двойные кавычки заключаются в 2 двойные кавычки (""). Новые строки экранируются обратной косой чертой, за которой следует символ "n", то есть " ".

Домашняя страница : https://course.fast.ai/datasets
Исходный код : tfds.text.YelpPolarityReviews
Версии :
- 0.2.0 (по умолчанию): нет примечаний к выпуску.
Размер загрузки : 158.67 MiB
Размер набора данных : 435.14 MiB .
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'test'`	38000
`'train'`	560 000

Структура функции :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})

Документация по функциям :

Особенность	Учебный класс	Dтип
	ОсобенностиDict
этикетка	Метка класса	int64
текст	Текст	нить

Контролируемые ключи (см. as_supervised doc ): ('text', 'label')
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):

Цитата :

@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}

yelp_polarity_reviews Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

yelp_polarity_reviews