pattes_wiki

  • Description:

Les ensembles de données d'identification de paraphrases existants manquent de paires de phrases qui ont un chevauchement lexical élevé sans être des paraphrases. Les modèles entraînés sur de telles données ne parviennent pas à distinguer les paires telles que les vols de New York à la Floride et les vols de la Floride à New York. Cet ensemble de données contient 108 463 paires étiquetées par l'homme et 656 000 paires étiquetées de manière bruyante qui présentent l'importance de la modélisation des informations sur la structure, le contexte et l'ordre des mots pour le problème de l'identification des paraphrases.

Pour plus de détails, voir le document d' accompagnement: Griffes: Paraphrase Adversaires à partir de Word Scrambling à https://arxiv.org/abs/1904.01130

Ce corpus contient des paires générées à partir de pages Wikipedia, contenant des paires générées à la fois par des méthodes d'échange de mots et de traduction inverse. Toutes les paires ont des jugements humains sur la paraphrase et la fluidité et elles sont divisées en sections Train/Dev/Test.

Tous les fichiers sont au format tsv avec quatre colonnes :

id Un identifiant unique pour chaque paire phrase1 La première phrase phrase2 La deuxième phrase (noisy_)label (Noisy) label pour chaque paire

Chaque étiquette a deux valeurs possibles : 0 indique que la paire a une signification différente, tandis que 1 indique que la paire est une paraphrase.

Diviser Exemples
'test' 8 000
'train' 49 401
'validation' 8 000
  • Caractéristiques:
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • citation:
@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}