- Описание :
В существующих наборах данных идентификации перефразирования отсутствуют пары предложений, которые имеют большое лексическое перекрытие, но не являются пересказами. Модели, обученные на таких данных, не могут различать пары, такие как рейсы из Нью-Йорка во Флориду и полеты из Флориды в Нью-Йорк. Этот набор данных содержит 108 463 помеченных людьми и 656 000 пар с шумовыми пометками, которые показывают важность моделирования структуры, контекста и информации о порядке слов для проблемы идентификации перефразирования.
Для получения дополнительной информации см. Сопроводительный документ: PAWS: Paraphrase Adversaries from Word Scramble на https://arxiv.org/abs/1904.01130
Этот корпус содержит пары, сгенерированные из страниц Википедии, содержащие пары, созданные как с помощью замены слов, так и методов обратного перевода. У всех пар есть человеческие суждения как о перефразировании, так и о беглости речи, и они разделены на разделы обучения / разработки / тестирования.
Все файлы в формате tsv с четырьмя столбцами:
id Уникальный идентификатор для каждой пары предложение1 Первое предложение предложение2 Второе предложение (noisy_) метка (Шумная) метка для каждой пары
Каждая метка имеет два возможных значения: 0 указывает, что пара имеет различное значение, а 1 указывает, что пара является пересказом.
Домашняя страница : https://github.com/google-research-datasets/paws
Исходный код :
tfds.text.PawsWiki
Версии :
-
1.0.0
(по умолчанию): без примечаний к выпуску.
-
Размер загрузки :
4.47 MiB
Размер набора данных :
17.96 MiB
Автоматическое кэширование ( документация ): Да
Сплит :
Трещина | Примеры |
---|---|
'test' | 8 000 |
'train' | 49 401 |
'validation' | 8 000 |
- Особенности :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'sentence1': Text(shape=(), dtype=tf.string),
'sentence2': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (см.
as_supervised
doc ):None
Цитата :
@InProceedings{paws2019naacl,
title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
booktitle = {Proc. of NAACL},
year = {2019}
}
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):