paws_x_wiki

  • Описание :

Этот набор данных содержит 23 659 оценочных пар PAWS, переведенных человеком, и 296 406 обучающих пар, переведенных машинным способом, на шести типологически различных языках:

  • Французский
  • испанский
  • Немецкий
  • китайский язык
  • японский язык
  • Корейский

Дополнительные сведения см. в сопроводительном документе: PAWS-X: набор межъязыковых состязательных данных для идентификации парафраз на https://arxiv.org/abs/1908.11828 .

Подобно набору данных PAWS, примеры разбиты на разделы «Обучение/Разработка/Тест». Все файлы в формате tsv с четырьмя столбцами:

  1. id : уникальный идентификатор для каждой пары.
  2. sentence1 : Первое предложение.
  3. sentence2 : Второе предложение.
  4. (noisy_)label : (Шумная) метка для каждой пары.

Каждая метка имеет два возможных значения: 0 указывает на то, что пара имеет другое значение, а 1 указывает на то, что пара является парафразой.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
этикетка Метка класса int64
предложение1 Текст нить
предложение2 Текст нить
@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki/de (конфигурация по умолчанию)

  • Описание конфига : переведено на де

  • Размер набора данных : 15.27 MiB .

  • Сплиты :

Расколоть Примеры
'test' 2000
'train' 49 380
'validation' 2000

paws_x_wiki/ru

  • Описание конфига : Переведено на en

  • Размер набора данных : 14.59 MiB .

  • Сплиты :

Расколоть Примеры
'test' 2000
'train' 49 175
'validation' 2000

paws_x_wiki/es

  • Описание конфига : переведено на es

  • Размер набора данных : 15.27 MiB .

  • Сплиты :

Расколоть Примеры
'test' 2000
'train' 49 401
'validation' 1961

paws_x_wiki/fr

  • Описание конфигурации : переведено на фр.

  • Размер набора данных : 15.79 MiB .

  • Сплиты :

Расколоть Примеры
'test' 2000
'train' 49 399
'validation' 1988

paws_x_wiki/ja

  • Описание конфигурации : переведено на ja

  • Размер набора данных : 17.77 MiB .

  • Сплиты :

Расколоть Примеры
'test' 2000
'train' 49 401
'validation' 2000

paws_x_wiki/ko

  • Описание конфигурации : переведено на ko

  • Размер набора данных : 16.42 MiB .

  • Сплиты :

Расколоть Примеры
'test' 1999
'train' 49 164
'validation' 2000

paws_x_wiki/ж

  • Описание конфига : Переведено на zh

  • Размер набора данных : 13.20 MiB .

  • Сплиты :

Расколоть Примеры
'test' 2000
'train' 49 401
'validation' 2000