paws_wiki

תיאור :

מערכי נתונים קיימים של זיהוי פרפרזה חסרים צמדי משפטים בעלי חפיפה מילונית גבוהה מבלי להיות פרפראזות. דוגמניות שאומנו על נתונים כאלה לא מצליחות להבחין בין זוגות כמו טיסות מניו יורק לפלורידה וטיסות מפלורידה לניו יורק. מערך נתונים זה מכיל 108,463 צמדים המסומנים בתווית אנושית ו-656,000 צמדים בעלי תווית רועשת, המציגים את החשיבות של מודלים של מידע על מבנה, הקשר וסדר מילים לבעיה של זיהוי פרפרזה.

לפרטים נוספים, ראה את המאמר המצורף: PAWS: Paraphrase Adversaries from Word Scrambling בכתובת https://arxiv.org/abs/1904.01130

קורפוס זה מכיל זוגות שנוצרו מדפי ויקיפדיה, המכילים זוגות הנוצרים משיטות החלפת מילים וגם משיטות תרגום אחורי. לכל הזוגות יש שיפוט אנושי הן בפרפרזה והן בשטף, והם מחולקים לקטעי רכבת/פיתוח/מבחן.

כל הקבצים הם בפורמט tsv עם ארבע עמודות:

id : מזהה ייחודי לכל זוג.
sentence1 1 : המשפט הראשון.
sentence2 2: המשפט השני.
(noisy_)label : תווית (רועשת) לכל זוג.

לכל תווית יש שני ערכים אפשריים: 0 מציין שלזוג יש משמעות שונה, בעוד ש-1 מציין שהזוג הוא פרפרזה.

תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://github.com/google-research-datasets/paws
קוד מקור : tfds.datasets.paws_wiki.Builder
גרסאות :
- 1.0.0 : גרסה ראשונית.
- 1.1.0 (ברירת מחדל): מוסיף תצורות לקבוצות משנה שונות ותמיכה בטקסט גולמי.
גודל הורדה : 57.47 MiB
מבנה תכונה :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})

תיעוד תכונה :

תכונה	מעמד	Dtype
	FeaturesDict
תווית	ClassLabel	int64
משפט 1	טֶקסט	חוּט
משפט 2	טֶקסט	חוּט

מפתחות בפיקוח (ראה as_supervised doc ): None
איור ( tfds.show_examples ): לא נתמך.
ציטוט :

@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki/labeled_final_tokenized (תצורת ברירת המחדל)

תיאור תצורה : קבוצת משנה: labeled_final tokenized: נכון
גודל ערכת נתונים: 17.96 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :

לְפַצֵל	דוגמאות
`'test'`	8,000
`'train'`	49,401
`'validation'`	8,000

דוגמאות ( tfds.as_dataframe ):

paws_wiki/labeled_final_raw

תיאור תצורה : קבוצת משנה: labeled_final tokenized: False
גודל ערכת נתונים: 17.57 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :

לְפַצֵל	דוגמאות
`'test'`	8,000
`'train'`	49,401
`'validation'`	8,000

דוגמאות ( tfds.as_dataframe ):

paws_wiki/labeled_swap_tokenized

תיאור תצורה : תת-קבוצה: labeled_swap tokenized: נכון
גודל ערכת נתונים : 8.79 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :

לְפַצֵל	דוגמאות
`'train'`	30,397

דוגמאות ( tfds.as_dataframe ):

paws_wiki/labeled_swap_raw

תיאור תצורה : תת-קבוצה: labeled_swap tokenized: False
גודל ערכת נתונים : 8.60 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :

לְפַצֵל	דוגמאות
`'train'`	30,397

דוגמאות ( tfds.as_dataframe ):

paws_wiki/unlabeled_final_tokenized

תיאור תצורה : קבוצת משנה: unlabeled_final tokenized: נכון
גודל ערכת נתונים: 177.89 MiB
שמור אוטומטי במטמון ( תיעוד ): כן (אימות), רק כאשר shuffle_files=False (רכבת)
פיצולים :

לְפַצֵל	דוגמאות
`'train'`	645,652
`'validation'`	10,000

דוגמאות ( tfds.as_dataframe ):