- Описание :
Этот набор данных содержит 23 659 пар оценок PAWS, переведенных человеком, и 296 406 пар обучения, переведенных машинным переводом, на шести типологически различных языках:
- Французский
- испанский
- Немецкий
- Китайский
- Японский
- Корейский
Дополнительные сведения см. В сопроводительном документе: PAWS-X: кросс-языковой набор данных Adversarial для идентификации перефразирования на https://arxiv.org/abs/1908.11828
Как и в случае с набором данных PAWS, примеры разделены на разделы «Обучение / Разработка / Тестирование». Все файлы в формате tsv с четырьмя столбцами:
id Уникальный идентификатор для каждой пары предложение1 Первое предложение предложение2 Второе предложение (noisy_) метка (Шумная) метка для каждой пары
Каждая метка имеет два возможных значения: 0 указывает, что пара имеет разное значение, а 1 указывает, что пара является пересказом.
Домашняя страница : https://github.com/google-research-datasets/paws/tree/master/pawsx
Исходный код :
tfds.text.paws_x_wiki.PawsXWiki
Версии :
-
1.0.0
(по умолчанию): без примечаний к выпуску.
-
Размер загрузки :
28.88 MiB
Автоматическое кэширование ( документация ): Да
Особенности :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'sentence1': Text(shape=(), dtype=tf.string),
'sentence2': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (см.
as_supervised
):None
Цитата :
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
- Рисунок ( tfds.show_examples ): не поддерживается.
paws_x_wiki / de (конфигурация по умолчанию)
Описание конфигурации : Переведено на de
Размер набора данных :
15.27 MiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 2 000 |
'train' | 49 380 |
'validation' | 2 000 |
- Примеры ( tfds.as_dataframe ):
paws_x_wiki / en
Описание конфигурации : Переведено на en
Размер набора данных :
14.59 MiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 2 000 |
'train' | 49 175 |
'validation' | 2 000 |
- Примеры ( tfds.as_dataframe ):
paws_x_wiki / es
Описание конфигурации : Переведено на es
Размер набора данных :
15.27 MiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 2 000 |
'train' | 49 401 |
'validation' | 1 961 |
- Примеры ( tfds.as_dataframe ):
paws_x_wiki / fr
Описание конфигурации : Переведено на fr
Размер набора данных :
15.79 MiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 2 000 |
'train' | 49 399 |
'validation' | 1,988 |
- Примеры ( tfds.as_dataframe ):
paws_x_wiki / ja
Описание конфигурации : Переведено на ja
Размер набора данных :
17.77 MiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 2 000 |
'train' | 49 401 |
'validation' | 2 000 |
- Примеры ( tfds.as_dataframe ):
paws_x_wiki / ko
Описание конфигурации : Переведено на ko
Размер набора данных :
16.42 MiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 1,999 |
'train' | 49 164 |
'validation' | 2 000 |
- Примеры ( tfds.as_dataframe ):
paws_x_wiki / zh
Описание конфигурации : Переведено на zh
Размер набора данных :
13.20 MiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 2 000 |
'train' | 49 401 |
'validation' | 2 000 |
- Примеры ( tfds.as_dataframe ):