paws_x_wiki

  • תיאור :

מערך נתונים זה מכיל 23,659 צמדי הערכת PAWS מתורגמים על ידי אדם ו-296,406 צמדי אימון מתורגמים במכונה בשש שפות שונות מבחינה טיפולוגית:

  • צָרְפָתִית
  • ספרדית
  • גֶרמָנִיָת
  • סִינִית
  • יַפָּנִית
  • קוריאנית

לפרטים נוספים, עיין במאמר המצורף: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification בכתובת https://arxiv.org/abs/1908.11828

בדומה ל-PAWS Dataset, דוגמאות מחולקות לקטעי רכבת/פיתוח/בדיקה. כל הקבצים הם בפורמט tsv עם ארבע עמודות:

  1. id : מזהה ייחודי לכל זוג.
  2. sentence1 1 : המשפט הראשון.
  3. sentence2 2: המשפט השני.
  4. (noisy_)label : תווית (רועשת) לכל זוג.

לכל תווית יש שני ערכים אפשריים: 0 מציין שלזוג יש משמעות שונה, בעוד ש-1 מציין שהזוג הוא פרפרזה.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תווית ClassLabel int64
משפט 1 טֶקסט חוּט
משפט 2 טֶקסט חוּט
@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki/de (תצורת ברירת המחדל)

  • תיאור תצורה : תורגם ל-de

  • גודל מערך נתונים : 15.27 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 2,000
'train' 49,380
'validation' 2,000

paws_x_wiki/iw

  • תיאור תצורה : תורגם ל-en

  • גודל מערך נתונים : 14.59 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 2,000
'train' 49,175
'validation' 2,000

paws_x_wiki/es

  • תיאור תצורה : תורגם ל-es

  • גודל מערך נתונים : 15.27 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 2,000
'train' 49,401
'validation' 1,961

paws_x_wiki/fr

  • תיאור תצורה : תורגם ל-fr

  • גודל מערך נתונים : 15.79 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 2,000
'train' 49,399
'validation' 1,988

paws_x_wiki/ja

  • תיאור תצורה : תורגם ל-ja

  • גודל מערך נתונים : 17.77 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 2,000
'train' 49,401
'validation' 2,000

paws_x_wiki/ko

  • תיאור תצורה : תורגם לקו

  • גודל מערך נתונים : 16.42 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,999
'train' 49,164
'validation' 2,000

paws_x_wiki/zh

  • תיאור תצורה : תורגם ל-zh

  • גודל מערך נתונים : 13.20 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 2,000
'train' 49,401
'validation' 2,000