Эта страница была переведа с помощью Cloud Translation API.
Switch to English

paws_x_wiki

  • Описание :

Этот набор данных содержит 23 659 пар оценки PAWS, переведенных человеком, и 296 406 пар обучения, переведенных машинным переводом, на шести типологически различных языках:

  • французский язык
  • испанский язык
  • Немецкий
  • китайский язык
  • Японский
  • Корейский

Для получения дополнительных сведений см. Сопроводительный документ: PAWS-X: набор данных межъязыкового состязания для идентификации перефразирования на https://arxiv.org/abs/1908.11828

Как и в случае с набором данных PAWS, примеры разделены на разделы «Обучение / Разработка / Тестирование». Все файлы в формате tsv с четырьмя столбцами:

id Уникальный идентификатор для каждой пары предложение1 первое предложение предложение2 второе предложение (noisy_) метка (шумная) метка для каждой пары

Каждая метка имеет два возможных значения: 0 указывает, что пара имеет разное значение, а 1 указывает, что пара является пересказом.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • Контролируемые ключи (см. as_supervised ): None

  • Цитата :

@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki / de (конфигурация по умолчанию)

  • Описание конфигурации : Переведено на de

  • Размер набора данных : 15.27 MiB

  • Сплит :

Трещина Примеры
'test' 2 000
'train' 49 380
'validation' 2 000

paws_x_wiki / en

  • Описание конфигурации : переведено на en

  • Размер набора данных : 14.59 MiB

  • Сплит :

Трещина Примеры
'test' 2 000
'train' 49 175
'validation' 2 000

paws_x_wiki / es

  • Описание конфигурации : Переведено на es

  • Размер набора данных : 15.27 MiB

  • Сплит :

Трещина Примеры
'test' 2 000
'train' 49 401
'validation' 1 961

paws_x_wiki / fr

  • Описание конфигурации : Переведено на fr

  • Размер набора данных : 15.79 MiB

  • Сплит :

Трещина Примеры
'test' 2 000
'train' 49 399
'validation' 1,988

paws_x_wiki / ja

  • Описание конфигурации : Переведено на ja

  • Размер набора данных : 17.77 MiB

  • Сплит :

Трещина Примеры
'test' 2 000
'train' 49 401
'validation' 2 000

paws_x_wiki / ko

  • Описание конфигурации : Переведено на ko

  • Размер набора данных : 16.42 MiB

  • Сплит :

Трещина Примеры
'test' 1,999
'train' 49 164
'validation' 2 000

paws_x_wiki / zh

  • Описание конфигурации : Переведено на zh

  • Размер набора данных : 13.20 MiB

  • Сплит :

Трещина Примеры
'test' 2 000
'train' 49 401
'validation' 2 000