RSVP для вашего местного мероприятия TensorFlow Everywhere сегодня!
Эта страница переведена с помощью Cloud Translation API.
Switch to English

paws_wiki

  • Описание :

В существующих наборах данных идентификации перефразирования отсутствуют пары предложений, которые имеют большое лексическое перекрытие, но не являются пересказами. Модели, обученные на таких данных, не могут различать пары, такие как рейсы из Нью-Йорка во Флориду и полеты из Флориды в Нью-Йорк. Этот набор данных содержит 108 463 помеченных людьми и 656 000 пар с шумовыми пометками, которые показывают важность моделирования структуры, контекста и информации о порядке слов для проблемы идентификации перефразирования.

Для получения дополнительной информации см. Сопроводительный документ: PAWS: Paraphrase Adversaries from Word Scramble на https://arxiv.org/abs/1904.01130

Этот корпус содержит пары, сгенерированные из страниц Википедии, содержащие пары, созданные как с помощью замены слов, так и методов обратного перевода. У всех пар есть человеческие суждения как о перефразировании, так и о беглости речи, и они разделены на разделы обучения / разработки / тестирования.

Все файлы в формате tsv с четырьмя столбцами:

id Уникальный идентификатор для каждой пары предложение1 Первое предложение предложение2 Второе предложение (noisy_) метка (Шумная) метка для каждой пары

Каждая метка имеет два возможных значения: 0 указывает, что пара имеет различное значение, а 1 указывает, что пара является пересказом.

Трещина Примеры
'test' 8 000
'train' 49 401
'validation' 8 000
  • Особенности :
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • Контролируемые ключи (см. as_supervised doc ): None

  • Цитата :

@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}