Эта страница была переведа с помощью Cloud Translation API.
Switch to English

yelp_polarity_reviews

  • Описание :

Большой набор данных обзора Yelp. Это набор данных для двоичной классификации тональности. Мы предоставляем набор из 560 000 высокополярных обзоров для обучения и 38 000 для тестирования. ORIGIN Набор данных обзоров Yelp состоит из обзоров Yelp. Он взят из данных Yelp Dataset Challenge 2015. Для получения дополнительной информации посетите http://www.yelp.com/dataset

Набор данных полярности обзоров Yelp создан Сян Чжаном (xiang.zhang@nyu.edu) на основе указанного выше набора данных. Впервые он используется в качестве эталона классификации текстов в следующей статье: Сян Чжан, Цзюньбо Чжао, Янн ЛеКун. Сверточные сети на уровне символов для классификации текста. Достижения в системах обработки нейронной информации 28 (NIPS 2015).

ОПИСАНИЕ

Набор данных полярности обзоров Yelp построен с учетом звезд 1 и 2 отрицательными, а 3 и 4 положительными. Для каждой полярности случайным образом отбирается 280 000 обучающих образцов и 19 000 тестовых образцов. Всего имеется 560 000 учебных и 38 000 тестовых образцов. Отрицательная полярность - это класс 1, а положительная - класс 2.

Файлы train.csv и test.csv содержат все обучающие образцы в виде значений, разделенных запятыми. В них 2 столбца, соответствующие индексу класса (1 и 2) и тексту обзора. Текст обзора экранируется двойными кавычками ("), а любые внутренние двойные кавычки экранируются двумя двойными кавычками (" "). Новые строки экранируются обратной косой чертой, за которой следует символ" n ", то есть" ".

Трещина Примеры
'test' 38 000
'train' 560 000
  • Контролируемые ключи (см. as_supervised ): ('text', 'label')

  • Цитата :

@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}

yelp_polarity_reviews / plain_text (конфигурация по умолчанию)

  • Описание конфигурации : обычный текст

  • Размер набора данных : 435.14 MiB

  • Автоматическое кэширование ( документация ): Нет

  • Особенности :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})

yelp_polarity_reviews / байты

  • Описание конфигурации : использует кодировку текста на уровне байтов с tfds.deprecated.text.ByteTextEncoder

  • Размер набора данных : 435.14 MiB

  • Автоматическое кэширование ( документация ): Нет

  • Особенности :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<ByteTextEncoder vocab_size=257>),
})

yelp_polarity_reviews / subwords8k

  • Описание конфигурации : использует tfds.deprecated.text.SubwordTextEncoder с размером tfds.deprecated.text.SubwordTextEncoder 8 КБ

  • Размер набора данных : 182.89 MiB

  • Автоматическое кэширование ( документация ): Да (тест), только когда shuffle_files=False (поезд)

  • Особенности :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8176>),
})

yelp_polarity_reviews / subwords32k

  • Описание конфигурации : использует tfds.deprecated.text.SubwordTextEncoder с размером tfds.deprecated.text.SubwordTextEncoder

  • Размер набора данных : 173.65 MiB

  • Автоматическое кэширование ( документация ): Да (тест), только когда shuffle_files=False (поезд)

  • Особенности :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=32765>),
})