Google I/O — это обертка! Наверстать упущенное в сеансах TensorFlow Просмотреть сеансы

paws_x_wiki

  • Описание:

Этот набор данных содержит 23 659 пар оценок PAWS, переведенных человеком, и 296 406 пар обучения, переведенных машинным переводом, на шести типологически различных языках:

  • французкий язык
  • испанский
  • Немецкий
  • китайский язык
  • Японский
  • корейский язык

Для получения более подробной информации см сопроводительный документ: PAWS-X: кросс-язычной Состязательность Dataset для перефразировать идентификации на https://arxiv.org/abs/1908.11828

Как и в случае с набором данных PAWS, примеры разделены на разделы «Обучение / Разработка / Тестирование». Все файлы в формате tsv с четырьмя столбцами:

id Уникальный идентификатор для каждой пары предложение1 Первое предложение предложение2 Второе предложение (noisy_) метка (Шумная) метка для каждой пары

Каждая метка имеет два возможных значения: 0 указывает, что пара имеет разное значение, а 1 указывает, что пара является пересказом.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki / de (конфигурация по умолчанию)

  • Описание конфигурации: Перевод на де

  • Dataset Размер: 15.27 MiB

  • расколы:

Расколоть Примеры
'test' 2 000
'train' 49 380
'validation' 2 000

paws_x_wiki / en

  • Описание конфигурации: Перевод с ванной

  • Dataset Размер: 14.59 MiB

  • расколы:

Расколоть Примеры
'test' 2 000
'train' 49 175
'validation' 2 000

paws_x_wiki / es

  • Описание конфигурации: Перевод на эс

  • Dataset Размер: 15.27 MiB

  • расколы:

Расколоть Примеры
'test' 2 000
'train' 49 401
'validation' 1 961

paws_x_wiki / fr

  • Описание конфигурации: Перевод с фр

  • Dataset Размер: 15.79 MiB

  • расколы:

Расколоть Примеры
'test' 2 000
'train' 49 399
'validation' 1,988

paws_x_wiki / ja

  • Описание Config: Переведенный на JA

  • Dataset Размер: 17.77 MiB

  • расколы:

Расколоть Примеры
'test' 2 000
'train' 49 401
'validation' 2 000

paws_x_wiki / ko

  • Описание конфигурации: Перевод на К.О.

  • Dataset Размер: 16.42 MiB

  • расколы:

Расколоть Примеры
'test' 1,999
'train' 49 164
'validation' 2 000

paws_x_wiki / zh

  • Описание конфигурации: Перевод на гк

  • Dataset Размер: 13.20 MiB

  • расколы:

Расколоть Примеры
'test' 2 000
'train' 49 401
'validation' 2 000