paws_wiki

  • תיאור :

מערכי נתונים קיימים של זיהוי פרפרזה חסרים צמדי משפטים בעלי חפיפה מילונית גבוהה מבלי להיות פרפראזות. דוגמניות שאומנו על נתונים כאלה לא מצליחות להבחין בין זוגות כמו טיסות מניו יורק לפלורידה וטיסות מפלורידה לניו יורק. מערך נתונים זה מכיל 108,463 צמדים המסומנים בתווית אנושית ו-656,000 צמדים בעלי תווית רועשת, המציגים את החשיבות של מודלים של מידע על מבנה, הקשר וסדר מילים לבעיה של זיהוי פרפרזה.

לפרטים נוספים, ראה את המאמר המצורף: PAWS: Paraphrase Adversaries from Word Scrambling בכתובת https://arxiv.org/abs/1904.01130

קורפוס זה מכיל זוגות שנוצרו מדפי ויקיפדיה, המכילים זוגות הנוצרים משיטות החלפת מילים וגם משיטות תרגום אחורי. לכל הזוגות יש שיפוט אנושי הן בפרפרזה והן בשטף, והם מחולקים לקטעי רכבת/פיתוח/מבחן.

כל הקבצים הם בפורמט tsv עם ארבע עמודות:

  1. id : מזהה ייחודי לכל זוג.
  2. sentence1 1 : המשפט הראשון.
  3. sentence2 2: המשפט השני.
  4. (noisy_)label : תווית (רועשת) לכל זוג.

לכל תווית יש שני ערכים אפשריים: 0 מציין שלזוג יש משמעות שונה, בעוד ש-1 מציין שהזוג הוא פרפרזה.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תווית ClassLabel int64
משפט 1 טֶקסט חוּט
משפט 2 טֶקסט חוּט
@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki/labeled_final_tokenized (תצורת ברירת המחדל)

  • תיאור תצורה : קבוצת משנה: labeled_final tokenized: נכון

  • גודל ערכת נתונים: 17.96 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 8,000
'train' 49,401
'validation' 8,000

paws_wiki/labeled_final_raw

  • תיאור תצורה : קבוצת משנה: labeled_final tokenized: False

  • גודל ערכת נתונים: 17.57 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 8,000
'train' 49,401
'validation' 8,000

paws_wiki/labeled_swap_tokenized

  • תיאור תצורה : תת-קבוצה: labeled_swap tokenized: נכון

  • גודל ערכת נתונים : 8.79 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 30,397

paws_wiki/labeled_swap_raw

  • תיאור תצורה : תת-קבוצה: labeled_swap tokenized: False

  • גודל ערכת נתונים : 8.60 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 30,397

paws_wiki/unlabeled_final_tokenized

  • תיאור תצורה : קבוצת משנה: unlabeled_final tokenized: נכון

  • גודל ערכת נתונים: 177.89 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן (אימות), רק כאשר shuffle_files=False (רכבת)

  • פיצולים :

לְפַצֵל דוגמאות
'train' 645,652
'validation' 10,000