- Описание:
В существующих наборах данных идентификации перефразирования отсутствуют пары предложений, которые имеют большое лексическое перекрытие, но не являются пересказами. Модели, обученные на таких данных, не могут различать пары, такие как рейсы из Нью-Йорка во Флориду и полеты из Флориды в Нью-Йорк. Этот набор данных содержит 108 463 помеченных людьми и 656 000 пар с шумными пометками, которые показывают важность моделирования структуры, контекста и информации о порядке слов для проблемы идентификации перефразирования.
Для получения более подробной информации см сопроводительный документ: Лапы: Перефразируя Adversaries из Слова Выбравшись на https://arxiv.org/abs/1904.01130
Этот корпус содержит пары, сгенерированные из страниц Википедии, содержащие пары, созданные как с помощью замены слов, так и с помощью методов обратного перевода. Все пары имеют человеческие суждения как о перефразировании, так и о беглости речи, и они разделены на разделы для обучения / разработки / тестирования.
Все файлы в формате tsv с четырьмя столбцами:
id Уникальный идентификатор для каждой пары предложение1 Первое предложение предложение2 Второе предложение (noisy_) метка (Шумная) метка для каждой пары
Каждая метка имеет два возможных значения: 0 указывает, что пара имеет разное значение, а 1 указывает, что пара является пересказом.
Домашняя страница: https://github.com/google-research-datasets/paws
Исходный код:
tfds.text.PawsWiki
Версии:
-
1.0.0
: Начальная версия. -
1.1.0
( по умолчанию): Добавляет конфиги к различным подмножества и поддержки необработанного текста.
-
Скачать Размер:
57.47 MiB
Особенности:
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'sentence1': Text(shape=(), dtype=tf.string),
'sentence2': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (см
as_supervised
документ ):None
Рис ( tfds.show_examples ): Не поддерживается.
Образец цитирования:
@InProceedings{paws2019naacl,
title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
booktitle = {Proc. of NAACL},
year = {2019}
}
paws_wiki / labeled_final_tokenized ( по умолчанию конфигурации)
Описание Config: Подгруппа: labeled_final Разбивается на лексемы: Правда
Dataset Размер:
17.96 MiB
Авто-кэшируются ( документация ): Да
расколы:
Расколоть | Примеры |
---|---|
'test' | 8 000 |
'train' | 49 401 |
'validation' | 8 000 |
- Примеры ( tfds.as_dataframe ):
paws_wiki / labeled_final_raw
Описание Config: Подгруппа: labeled_final Разбивается на лексемы: Ложные
Dataset Размер:
17.57 MiB
Авто-кэшируются ( документация ): Да
расколы:
Расколоть | Примеры |
---|---|
'test' | 8 000 |
'train' | 49 401 |
'validation' | 8 000 |
- Примеры ( tfds.as_dataframe ):
paws_wiki / labeled_swap_tokenized
Описание Config: Подгруппа: labeled_swap лексемы: Правда
Dataset Размер:
8.79 MiB
Авто-кэшируются ( документация ): Да
расколы:
Расколоть | Примеры |
---|---|
'train' | 30 397 |
- Примеры ( tfds.as_dataframe ):
paws_wiki / labeled_swap_raw
Описание Config: Подгруппа: labeled_swap лексемы: Ложное
Dataset Размер:
8.60 MiB
Авто-кэшируются ( документация ): Да
расколы:
Расколоть | Примеры |
---|---|
'train' | 30 397 |
- Примеры ( tfds.as_dataframe ):
paws_wiki / unlabeled_final_tokenized
Описание Config: Подгруппа: unlabeled_final лексемы: Правда
Dataset Размер:
177.89 MiB
Авто-кэшируются ( документация ): Да (проверка), только когда
shuffle_files=False
(поезд)расколы:
Расколоть | Примеры |
---|---|
'train' | 645 652 |
'validation' | 10 000 |
- Примеры ( tfds.as_dataframe ):