paws_wiki

  • תיאור:

במערכי הנתונים של זיהוי פרפראזה קיימים זוגות משפטים בעלי חפיפה לקסיקלית גבוהה מבלי שהם פרפרזות. דוגמניות שהוכשרו לנתונים כאלה לא מצליחות להבחין בזוגות כמו טיסות מניו יורק לפלורידה וטיסות מפלורידה לניו יורק. מערך זה מכיל 108,463 זוגות המסומנים על ידי בני אדם ו -656 אלף בעלי רעש המסמנים את החשיבות של דוגמנות מבנה, הקשר ומידע על סדר סדר המילים לבעיית זיהוי הפרפרזה.

לפרטים נוספים, ראה את העיתון הנלווה: כפות: פרפראזה היריבה מ- Word ערבול ב https://arxiv.org/abs/1904.01130

קורפוס זה מכיל זוגות הנוצרים מדפי ויקיפדיה, המכילים זוגות הנוצרים הן מהחלפת מילים והן משיטות תרגום לאחור. לכל הזוגות יש שיקול דעת אנושי הן לגבי פרפרזה והן שטף, והם מחולקים למקטעי רכבת/Dev/Test.

כל הקבצים בפורמט tsv עם ארבע עמודות:

id מזהה ייחודי לכל משפט זוג 1 משפט המשפט הראשון 2 תווית המשפט השני (רעש_) תווית (רועש) לכל זוג

לכל תווית יש שני ערכים אפשריים: 0 מציין שלזוג משמעות שונה, ואילו 1 מציין שהזוג הוא פרפראזה.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki / labeled_final_tokenized (config ברירת המחדל)

  • תיאור Config: בתת קבוצה: labeled_final tokenized: True

  • מערך נתונים גודל: 17.96 MiB

  • Auto-במטמון ( תיעוד ): כן

  • פיצולים:

לְפַצֵל דוגמאות
'test' 8,000
'train' 49,401
'validation' 8,000

paws_wiki / labeled_final_raw

  • תיאור Config: בתת קבוצה: labeled_final tokenized: False

  • מערך נתונים גודל: 17.57 MiB

  • Auto-במטמון ( תיעוד ): כן

  • פיצולים:

לְפַצֵל דוגמאות
'test' 8,000
'train' 49,401
'validation' 8,000

paws_wiki / labeled_swap_tokenized

  • תיאור Config: בתת קבוצה: labeled_swap tokenized: True

  • מערך נתונים גודל: 8.79 MiB

  • Auto-במטמון ( תיעוד ): כן

  • פיצולים:

לְפַצֵל דוגמאות
'train' 30,397

paws_wiki / labeled_swap_raw

  • תיאור Config: בתת קבוצה: labeled_swap tokenized: False

  • מערך נתונים גודל: 8.60 MiB

  • Auto-במטמון ( תיעוד ): כן

  • פיצולים:

לְפַצֵל דוגמאות
'train' 30,397

paws_wiki / unlabeled_final_tokenized

  • תיאור Config: בתת קבוצה: unlabeled_final tokenized: True

  • מערך נתונים גודל: 177.89 MiB

  • Auto-במטמון ( תיעוד ): כן (אימות), רק כאשר shuffle_files=False (הרכבת)

  • פיצולים:

לְפַצֵל דוגמאות
'train' 645,652
'validation' 10,000