Google I/O — это обертка! Наверстать упущенное в сеансах TensorFlow Просмотреть сеансы

paws_wiki

  • Описание:

В существующих наборах данных идентификации перефразирования отсутствуют пары предложений, которые имеют большое лексическое перекрытие, но не являются пересказами. Модели, обученные на таких данных, не могут различать пары, такие как рейсы из Нью-Йорка во Флориду и полеты из Флориды в Нью-Йорк. Этот набор данных содержит 108 463 помеченных людьми и 656 000 пар с шумными пометками, которые показывают важность моделирования структуры, контекста и информации о порядке слов для проблемы идентификации перефразирования.

Для получения более подробной информации см сопроводительный документ: Лапы: Перефразируя Adversaries из Слова Выбравшись на https://arxiv.org/abs/1904.01130

Этот корпус содержит пары, сгенерированные из страниц Википедии, содержащие пары, созданные как с помощью замены слов, так и с помощью методов обратного перевода. Все пары имеют человеческие суждения как о перефразировании, так и о беглости речи, и они разделены на разделы для обучения / разработки / тестирования.

Все файлы в формате tsv с четырьмя столбцами:

id Уникальный идентификатор для каждой пары предложение1 Первое предложение предложение2 Второе предложение (noisy_) метка (Шумная) метка для каждой пары

Каждая метка имеет два возможных значения: 0 указывает, что пара имеет разное значение, а 1 указывает, что пара является пересказом.

  • Домашняя страница: https://github.com/google-research-datasets/paws

  • Исходный код: tfds.text.PawsWiki

  • Версии:

    • 1.0.0 : Начальная версия.
    • 1.1.0 ( по умолчанию): Добавляет конфиги к различным подмножества и поддержки необработанного текста.
  • Скачать Размер: 57.47 MiB

  • Особенности:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki / labeled_final_tokenized ( по умолчанию конфигурации)

  • Описание Config: Подгруппа: labeled_final Разбивается на лексемы: Правда

  • Dataset Размер: 17.96 MiB

  • Авто-кэшируются ( документация ): Да

  • расколы:

Расколоть Примеры
'test' 8 000
'train' 49 401
'validation' 8 000

paws_wiki / labeled_final_raw

  • Описание Config: Подгруппа: labeled_final Разбивается на лексемы: Ложные

  • Dataset Размер: 17.57 MiB

  • Авто-кэшируются ( документация ): Да

  • расколы:

Расколоть Примеры
'test' 8 000
'train' 49 401
'validation' 8 000

paws_wiki / labeled_swap_tokenized

  • Описание Config: Подгруппа: labeled_swap лексемы: Правда

  • Dataset Размер: 8.79 MiB

  • Авто-кэшируются ( документация ): Да

  • расколы:

Расколоть Примеры
'train' 30 397

paws_wiki / labeled_swap_raw

  • Описание Config: Подгруппа: labeled_swap лексемы: Ложное

  • Dataset Размер: 8.60 MiB

  • Авто-кэшируются ( документация ): Да

  • расколы:

Расколоть Примеры
'train' 30 397

paws_wiki / unlabeled_final_tokenized

  • Описание Config: Подгруппа: unlabeled_final лексемы: Правда

  • Dataset Размер: 177.89 MiB

  • Авто-кэшируются ( документация ): Да (проверка), только когда shuffle_files=False (поезд)

  • расколы:

Расколоть Примеры
'train' 645 652
'validation' 10 000