paws_wiki

  • Описание :

В существующих наборах данных идентификации перефразирования отсутствуют пары предложений с высоким лексическим перекрытием, но не являющиеся перефразированием. Модели, обученные на таких данных, не могут различать такие пары, как рейсы из Нью-Йорка во Флориду и рейсы из Флориды в Нью-Йорк. Этот набор данных содержит 108 463 пары, помеченные человеком, и 656 тыс. пар, помеченных шумом, которые показывают важность моделирования структуры, контекста и информации о порядке слов для проблемы идентификации парафраз.

Дополнительные сведения см. в сопроводительном документе: PAWS: Paraphrase Adversaries from Word Scrambling по адресу https://arxiv.org/abs/1904.01130 .

Этот корпус содержит пары, сгенерированные из страниц Википедии, содержащие пары, сгенерированные как методом замены слов, так и методом обратного перевода. Все пары имеют человеческие суждения как о перефразировании, так и о беглости, и они разделены на разделы «Обучение/Разработка/Тестирование».

Все файлы в формате tsv с четырьмя столбцами:

  1. id : уникальный идентификатор для каждой пары.
  2. sentence1 : Первое предложение.
  3. sentence2 : Второе предложение.
  4. (noisy_)label : (Шумная) метка для каждой пары.

Каждая метка имеет два возможных значения: 0 указывает, что пара имеет другое значение, а 1 указывает, что пара является перефразированием.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
этикетка Метка класса int64
предложение1 Текст нить
предложение2 Текст нить
@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki/labeled_final_tokenized (конфигурация по умолчанию)

  • Описание конфигурации : Подмножество: labeled_final tokenized: True

  • Размер набора данных : 17.96 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 8000
'train' 49 401
'validation' 8000

paws_wiki/labeled_final_raw

  • Описание конфигурации : Подмножество: labeled_final tokenized: False

  • Размер набора данных : 17.57 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 8000
'train' 49 401
'validation' 8000

paws_wiki/labeled_swap_tokenized

  • Описание конфигурации : Подмножество: labeled_swap tokenized: True

  • Размер набора данных : 8.79 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 30 397

paws_wiki/labeled_swap_raw

  • Описание конфигурации : Подмножество: labeled_swap tokenized: False

  • Размер набора данных : 8.60 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 30 397

paws_wiki/unlabeled_final_tokenized

  • Описание конфигурации : Подмножество: unlabeled_final tokenized: True

  • Размер набора данных : 177.89 MiB .

  • Автоматическое кэширование ( документация ): Да (проверка), только когда shuffle_files=False (поезд)

  • Сплиты :

Расколоть Примеры
'train' 645 652
'validation' 10 000