Эта страница была переведа с помощью Cloud Translation API.
Switch to English

paws_wiki

  • Описание :

В существующих наборах данных идентификации перефразирования отсутствуют пары предложений, которые имеют большое лексическое перекрытие, но не являются пересказами. Модели, обученные на таких данных, не могут различать пары, такие как рейсы из Нью-Йорка во Флориду и полеты из Флориды в Нью-Йорк. Этот набор данных содержит 108 463 помеченных людьми и 656 000 пар с шумовыми пометками, которые показывают важность моделирования структуры, контекста и информации о порядке слов для проблемы идентификации перефразирования.

Для получения дополнительных сведений см. Сопроводительный документ: PAWS: Paraphrase Adversaries from Word Scrapting на https://arxiv.org/abs/1904.01130

Этот корпус содержит пары, сгенерированные из страниц Википедии, содержащие пары, созданные как с помощью замены слов, так и с помощью методов обратного перевода. У всех пар есть человеческие суждения как о перефразировании, так и о беглости речи, и они разделены на разделы обучения / разработки / тестирования.

Все файлы в формате tsv с четырьмя столбцами:

id Уникальный идентификатор для каждой пары предложений1 Первое предложение предложение2 Второе предложение (noisy_) метка (Шумная) метка для каждой пары

Каждая метка имеет два возможных значения: 0 указывает, что пара имеет разное значение, а 1 указывает, что пара является пересказом.

Трещина Примеры
'test' 8 000
'train' 49 401
'validation' 8 000
  • Особенности :
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • Контролируемые ключи (см. as_supervised ): None

  • Цитата :

@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}