דבק מגע

  • תיאור :

SuperGLUE ( https://super.gluebenchmark.com/ ) הוא אמת מידה חדשה בסגנון GLUE עם קבוצה חדשה של משימות קשות יותר להבנת שפה, משאבים משופרים וטבלת הישגים ציבורית חדשה.

super_glue/boolq (תצורת ברירת המחדל)

  • תיאור תצורה : BoolQ (Boolean Questions, Clark et al., 2019a) היא משימת QA שבה כל דוגמה מורכבת מקטע קצר ושאלת כן/לא לגבי הקטע. השאלות ניתנות בעילום שם וללא בקשת משתמשי מנוע החיפוש של גוגל, ולאחר מכן משולבות עם פסקה ממאמר ויקיפדיה המכילה את התשובה. בעקבות העבודה המקורית, אנו מעריכים בדייקנות.

  • דף הבית : https://github.com/google-research-datasets/boolean-questions

  • גודל הורדה : 3.93 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 3,245
'train' 9,427
'validation' 3,270
  • מבנה תכונה :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'passage': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
idx מוֹתֵחַ tf.int32
תווית ClassLabel tf.int64
מַעֲבָר טֶקסט tf.string
שְׁאֵלָה טֶקסט tf.string
  • ציטוט :
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/cb

  • תיאור תצורה : The CommitmentBank (De Marneffe et al., 2019) הוא קורפוס של טקסטים קצרים שבהם לפחות משפט אחד מכיל סעיף מוטבע. לכל אחד מהסעיפים המוטבעים הללו יש ביאור עד כמה אנו מצפים שהאדם שכתב את הטקסט יהיה מחויב לאמיתות הסעיף. המשימה שהתקבלה ממוסגרת כמכלול טקסטואלי של שלוש מעמדות על דוגמאות שנשאבות מהוול סטריט ג'ורנל, סיפורת מהקורפוס הלאומי הבריטי ומהמרכזייה. כל דוגמה מורכבת מהנחת יסוד המכילה סעיף מוטבע וההשערה המתאימה היא החילוץ של אותו סעיף. אנו משתמשים בקבוצת משנה של הנתונים שהיתה לה הסכמה בין-הערים מעל 0.85. הנתונים אינם מאוזנים (יחסית פחות דוגמאות ניטרליות), ולכן אנו מעריכים באמצעות דיוק ו-F1, כאשר עבור F1 מרובה מחלקות אנו מחשבים את הממוצע הלא משוקלל של F1 לכל מחלקה.

  • דף הבית : https://github.com/mcdm/CommitmentBank

  • גודל הורדה : 73.71 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 250
'train' 250
'validation' 56
  • מבנה תכונה :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
הַשׁעָרָה טֶקסט tf.string
idx מוֹתֵחַ tf.int32
תווית ClassLabel tf.int64
הַנָחַת יְסוֹד טֶקסט tf.string
  • ציטוט :
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

דבק_על/קופה

  • תיאור תצורה : הבחירה של חלופות מתקבלות על הדעת (COPA, Roemmele et al., 2011) היא משימת חשיבה סיבתית שבה ניתן למערכת משפט הנחה ושתי חלופות אפשריות. על המערכת לבחור בחלופה שיש לה את הקשר הסיבתי הסביר יותר עם הנחת היסוד. השיטה המשמשת לבניית החלופות מבטיחה שהמשימה דורשת נימוק סיבתי לפתרון. דוגמאות עוסקות בסיבות אפשריות חלופיות או בהשפעות אפשריות חלופיות של משפט ההנחה, מלוות בשאלה פשוטה המבדלת בין שני סוגי המופעים של המודל. כל הדוגמאות הן בעבודת יד ומתמקדות בנושאים מבלוגים מקוונים ואנציקלופדיה הקשורה לצילום. בעקבות המלצת המחברים, אנו מעריכים באמצעות דיוק.

  • דף הבית : http://people.ict.usc.edu/~gordon/copa.html

  • גודל הורדה : 42.96 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 500
'train' 400
'validation' 100
  • מבנה תכונה :
FeaturesDict({
    'choice1': Text(shape=(), dtype=tf.string),
    'choice2': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
בחירה 1 טֶקסט tf.string
בחירה 2 טֶקסט tf.string
idx מוֹתֵחַ tf.int32
תווית ClassLabel tf.int64
הַנָחַת יְסוֹד טֶקסט tf.string
שְׁאֵלָה טֶקסט tf.string
  • ציטוט :
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/multirc

  • תיאור תצורה : מערך הנתונים של הבנת הנקרא מרובה משפטים (MultiRC, Khashabi et al., 2018) הוא משימה של תשובה לשאלות נכון/לא נכון. כל דוגמה מורכבת מפסקת הקשר, שאלה לגבי אותה פסקה, ורשימה של תשובות אפשריות לשאלה זו שחייבים להיות מתויגים כאמיתיים או לא נכון. תשובות לשאלות (QA) היא בעיה פופולרית עם מערכי נתונים רבים. אנו משתמשים ב-MultiRC בגלל מספר מאפיינים רצויים: (i) לכל שאלה יכולות להיות מספר תשובות נכונות אפשריות, לכן יש להעריך כל צמד שאלה-תשובה ללא תלות בזוגות אחרים, (ii) השאלות מתוכננות כך שמענה על כל שאלה דורש שואבת עובדות ממשפטי הקשר מרובים, ו-(iii) פורמט צמד השאלה-תשובה תואם יותר את ה-API של משימות SuperGLUE אחרות מאשר QA חילוץ מבוסס-טווח. הפסקאות שאובות משבעה תחומים כולל חדשות, סיפורת וטקסט היסטורי.

  • דף הבית : https://cogcomp.org/multirc/

  • גודל הורדה : 1.06 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 9,693
'train' 27,243
'validation' 4,848
  • מבנה תכונה :
FeaturesDict({
    'answer': Text(shape=(), dtype=tf.string),
    'idx': FeaturesDict({
        'answer': tf.int32,
        'paragraph': tf.int32,
        'question': tf.int32,
    }),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תשובה טֶקסט tf.string
idx FeaturesDict
idx/answer מוֹתֵחַ tf.int32
idx/פיסקה מוֹתֵחַ tf.int32
idx/שאלה מוֹתֵחַ tf.int32
תווית ClassLabel tf.int64
פסקה טֶקסט tf.string
שְׁאֵלָה טֶקסט tf.string
  • ציטוט :
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

דבק_על/שיא

  • תיאור תצורה : (הבנת הנקרא עם ערכת נתונים של הנמקה Commonsense, Zhang et al., 2018) היא משימת QA רב-ברירה. כל דוגמה מורכבת ממאמר חדשותי ושאלה בסגנון קלוזה על המאמר שבו ישות אחת מוסווה. המערכת חייבת לחזות את הישות המוסווה מתוך רשימה נתונה של ישויות אפשריות בקטע המסופק, כאשר אותה ישות עשויה להתבטא באמצעות מספר צורות משטח שונות, שכולן נחשבות נכונות. המאמרים לקוחים מ-CNN ומדיילי מייל. בעקבות העבודה המקורית, אנו מעריכים עם מקסימום (מעל כל האזכורים) רמת אסימון F1 והתאמה מדויקת (EM).

  • דף הבית : https://sheng-z.github.io/ReCoRD-explorer/

  • גודל הורדה : 49.36 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 10,000
'train' 100,730
'validation' 10,000
  • מבנה תכונה :
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=tf.string)),
    'entities': Sequence(Text(shape=(), dtype=tf.string)),
    'idx': FeaturesDict({
        'passage': tf.int32,
        'query': tf.int32,
    }),
    'passage': Text(shape=(), dtype=tf.string),
    'query': Text(shape=(), dtype=tf.string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תשובות רצף (טקסט) (אף אחד,) tf.string
ישויות רצף (טקסט) (אף אחד,) tf.string
idx FeaturesDict
idx/מעבר מוֹתֵחַ tf.int32
idx/שאילתה מוֹתֵחַ tf.int32
מַעֲבָר טֶקסט tf.string
שאילתא טֶקסט tf.string
  • ציטוט :
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/rte

  • תיאור תצורה : מערכי הנתונים של Recognizing Textual Entailment (RTE) מגיעים מסדרה של תחרויות שנתיות בנושא מעורבות טקסטואלית, הבעיה של חיזוי אם משפט הנחה נתון כרוך במשפט השערה נתון (הידוע גם בשם מסקנות שפה טבעית, NLI). RTE נכלל בעבר ב-GLUE, ואנו משתמשים באותם נתונים ופורמטים כמו קודם: אנו ממזגים נתונים מ-RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007), ו-RTE5 (Bentivogli et al., 2009). כל מערכי הנתונים משולבים ומומרים לסיווג דו-מחלקה: אינטלמנט ו-not_entailment. מכל משימות ה-GLUE, RTE הייתה בין אלו שהרוויחו הכי הרבה מלמידה בהעברה, וקפצה מביצועים כמעט אקראי (~56%) בזמן ההשקה של GLUE לדיוק של 85% (Liu et al., 2019c) ב- זמן הכתיבה. עם זאת, בהתחשב בפער שמונה הנקודות ביחס לביצועים אנושיים, המשימה עדיין לא נפתרה על ידי מכונות, ואנו מצפים שהפער הנותר יהיה קשה לסגירה.

  • דף הבית : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • גודל הורדה : 733.32 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 3,000
'train' 2,490
'validation' 277
  • מבנה תכונה :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
הַשׁעָרָה טֶקסט tf.string
idx מוֹתֵחַ tf.int32
תווית ClassLabel tf.int64
הַנָחַת יְסוֹד טֶקסט tf.string
  • ציטוט :
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wic

  • תיאור תצורה : מערך ה-Word-in-Context (WiC, Pilehvar ו-Camacho-Collados, 2019) תומך במשימת ביעור של תחושת מילים המיועדת כסיווג בינארי על צמדי משפטים. בהינתן שני משפטים ומילה פוליסמית (חשתי דו-משמעית) המופיעה בשני המשפטים, המשימה היא לקבוע אם המילה משמשת באותו מובן בשני המשפטים. המשפטים לקוחים מ-WordNet (Miller, 1995), VerbNet (Schuler, 2005) ו-Wiktionary. אנו עוקבים אחר העבודה המקורית ומעריכים באמצעות דיוק.

  • דף הבית : https://pilehvar.github.io/wic/

  • גודל הורדה : 386.93 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,400
'train' 5,428
'validation' 638
  • מבנה תכונה :
FeaturesDict({
    'end1': tf.int32,
    'end2': tf.int32,
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
    'start1': tf.int32,
    'start2': tf.int32,
    'word': Text(shape=(), dtype=tf.string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
סוף 1 מוֹתֵחַ tf.int32
סוף 2 מוֹתֵחַ tf.int32
idx מוֹתֵחַ tf.int32
תווית ClassLabel tf.int64
משפט 1 טֶקסט tf.string
משפט 2 טֶקסט tf.string
התחל1 מוֹתֵחַ tf.int32
להתחיל2 מוֹתֵחַ tf.int32
מִלָה טֶקסט tf.string
  • ציטוט :
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc

  • תיאור תצורה : אתגר הסכמה של וינוגרד (WSC, Levesque et al., 2012) הוא משימת הבנת הנקרא שבה מערכת חייבת לקרוא משפט עם כינוי ולבחור את ההתייחסות של אותו כינוי מתוך רשימה של אפשרויות. בהתחשב בקושי של משימה זו והמרווח שעדיין נותר, כללנו את WSC ב-SuperGLUE ויצקנו מחדש את מערך הנתונים לצורת ה-coreference שלו. המשימה נוצקת כבעיית סיווג בינארי, בניגוד ל-N-multiple choice, על מנת לבודד את יכולתו של המודל להבין את קישורי ה-coreference בתוך משפט, בניגוד לאסטרטגיות שונות אחרות שעשויות לבוא לידי ביטוי בתנאי ריבוי בחירה. עם זאת בחשבון, אנו יוצרים פיצול עם 65% מחלקות רוב שליליות במערך האימות, המשקף את התפלגות מערך המבחנים הנסתרים, ו-52% מחלקה שלילית במערך האימונים. דוגמאות ההכשרה והתיקוף נשאבות ממערך הנתונים המקורי של Winograd Schema (Levesque et al., 2012), כמו גם מאלה שהופצו על ידי הארגון המסונף Commonsense Reasoning. דוגמאות המבחנים נגזרות מספרי בדיוני ושיתפו אותנו על ידי מחברי מערך הנתונים המקורי. בעבר, גרסה של WSC שיוצק מחדש כ-NLI כפי שנכללה ב-GLUE, הידועה בשם WNLI. לא הושגה התקדמות משמעותית ב-WNLI, כאשר הגשות רבות בחרו להגיש רק תחזיות של כיתה רוב. WNLI התקשה במיוחד בגלל פיצול רכבת/פיתוח יריב: משפטי הנחת יסוד שהופיעו בערכת האימונים הופיעו לפעמים בערכת הפיתוח עם השערה שונה ותווית מתהפכת. אם מערכת שינתה את ערכת האימונים בלי להכליל בצורה משמעותית, מה שהיה קל בגלל הגודל הקטן של ערכת האימונים, היא עלולה לבצע הרבה מתחת למקרה במערך הפיתוח. אנו מסירים את העיצוב היריב הזה בגרסת SuperGLUE של WSC על ידי הבטחה שלא יחולקו משפטים בין מערכי ההדרכה, האימות והמבחנים.

עם זאת, ערכות האימות והבדיקה מגיעות מתחומים שונים, כאשר ערכת האימות מורכבת מדוגמאות מעורפלות כך ששינוי מילה אחת שאינה עצם ביטוי ישנה את התלות המרכזית במשפט. מערך המבחנים מורכב רק מדוגמאות פשוטות יותר, עם מספר גבוה של ביטויי עצם (ולכן יותר אפשרויות למודל), אך נמוך עד ללא עמימות.

לְפַצֵל דוגמאות
'test' 146
'train' 554
'validation' 104
  • מבנה תכונה :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
idx מוֹתֵחַ tf.int32
תווית ClassLabel tf.int64
span1_index מוֹתֵחַ tf.int32
span1_text טֶקסט tf.string
span2_index מוֹתֵחַ tf.int32
span2_text טֶקסט tf.string
טֶקסט טֶקסט tf.string
  • ציטוט :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc.fixed

  • תיאור תצורה : אתגר הסכמה של וינוגרד (WSC, Levesque et al., 2012) הוא משימת הבנת הנקרא שבה מערכת חייבת לקרוא משפט עם כינוי ולבחור את ההתייחסות של אותו כינוי מתוך רשימה של אפשרויות. בהתחשב בקושי של משימה זו והמרווח שעדיין נותר, כללנו את WSC ב-SuperGLUE ויצקנו מחדש את מערך הנתונים לצורת ה-coreference שלו. המשימה נוצקת כבעיית סיווג בינארי, בניגוד ל-N-multiple choice, על מנת לבודד את יכולתו של המודל להבין את קישורי ה-coreference בתוך משפט, בניגוד לאסטרטגיות שונות אחרות שעשויות לבוא לידי ביטוי בתנאי ריבוי בחירה. עם זאת בחשבון, אנו יוצרים פיצול עם 65% מחלקות רוב שליליות במערך האימות, המשקף את התפלגות מערך המבחנים הנסתרים, ו-52% מחלקה שלילית במערך האימונים. דוגמאות ההכשרה והתיקוף נשאבות ממערך הנתונים המקורי של Winograd Schema (Levesque et al., 2012), כמו גם מאלה שהופצו על ידי הארגון המסונף Commonsense Reasoning. דוגמאות המבחנים נגזרות מספרי בדיוני ושיתפו אותנו על ידי מחברי מערך הנתונים המקורי. בעבר, גרסה של WSC שיוצק מחדש כ-NLI כפי שנכללה ב-GLUE, הידועה בשם WNLI. לא הושגה התקדמות משמעותית ב-WNLI, כאשר הגשות רבות בחרו להגיש רק תחזיות של כיתה רוב. WNLI התקשה במיוחד בגלל פיצול רכבת/פיתוח יריב: משפטי הנחת יסוד שהופיעו בערכת האימונים הופיעו לפעמים בערכת הפיתוח עם השערה שונה ותווית מתהפכת. אם מערכת שינתה את ערכת האימונים בלי להכליל בצורה משמעותית, מה שהיה קל בגלל הגודל הקטן של ערכת האימונים, היא עלולה לבצע הרבה מתחת למקרה במערך הפיתוח. אנו מסירים את העיצוב היריב הזה בגרסת SuperGLUE של WSC על ידי הבטחה שלא יחולקו משפטים בין מערכי ההדרכה, האימות והמבחנים.

עם זאת, ערכות האימות והבדיקה מגיעות מתחומים שונים, כאשר ערכת האימות מורכבת מדוגמאות מעורפלות כך ששינוי מילה אחת שאינה עצם ביטוי ישנה את התלות המרכזית במשפט. מערך המבחנים מורכב רק מדוגמאות פשוטות יותר, עם מספר גבוה של ביטויי עצם (ולכן יותר אפשרויות למודל), אך נמוך עד ללא עמימות.

גרסה זו מתקנת בעיות שבהן הטווחים אינם בעצם מחרוזות משנה של הטקסט.

לְפַצֵל דוגמאות
'test' 146
'train' 554
'validation' 104
  • מבנה תכונה :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
idx מוֹתֵחַ tf.int32
תווית ClassLabel tf.int64
span1_index מוֹתֵחַ tf.int32
span1_text טֶקסט tf.string
span2_index מוֹתֵחַ tf.int32
span2_text טֶקסט tf.string
טֶקסט טֶקסט tf.string
  • ציטוט :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axb

  • תיאור תצורה : מערך נתונים אבחנתי שנבנה על ידי מומחה, שבודק אוטומטית מודלים עבור מגוון רחב של ידע לשוני, שכל ועולם. כל דוגמה באבחון רחב כיסוי זה הוא צמד משפטים המסומן עם יחס הילוך תלת כיווני (השלכות, ניטרלי או סתירה) ומתויג בתוויות המציינות את התופעות המאפיינות את הקשר בין שני המשפטים. הגשות ל-GLUE leaderboard נדרשות לכלול תחזיות ממיון MultiNLI של ההגשה במערך הנתונים האבחוני, וניתוחים של התוצאות הוצגו לצד ה-leaderboard הראשי. מאחר שמשימת האבחון בכיסוי הרחב הוכיחה את עצמה כקשה עבור דגמים מובילים, אנו שומרים אותה ב-SuperGLUE. עם זאת, מכיוון ש-MultiNLI אינו חלק מ-SuperGLUE, אנו מכווצים סתירה וניטרלית לתווית not_entailment אחת, ומבקשים שהגשות יכללו תחזיות על הסט המתקבל מהמודל המשמש למשימה RTE.

  • דף הבית : https://gluebenchmark.com/diagnostics

  • גודל הורדה : 33.15 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,104
  • מבנה תכונה :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
idx מוֹתֵחַ tf.int32
תווית ClassLabel tf.int64
משפט 1 טֶקסט tf.string
משפט 2 טֶקסט tf.string
  • ציטוט :
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axg

  • תיאור תצורה : Winogender נועד למדוד הטיה מגדרית במערכות רזולוציית coreference. אנו משתמשים בגרסת ה-Diverse Natural Language Inference Collection (DNC; Poliak et al., 2018) המהווה את Winogender כמשימה טקסטואלית. כל דוגמה מורכבת ממשפט הנחה עם כינוי זכר או נקבה והשערה הנותנת קדמה אפשרית של הכינוי. דוגמאות מתרחשות בזוגות מינימליים, כאשר ההבדל היחיד בין דוגמה לזוג שלה הוא מגדר הכינוי בהנחת היסוד. הביצועים ב-Winogender נמדדים הן ברמת הדיוק והן בציון הזוגיות המגדרית: אחוז הזוגות המינימליים שעבורם התחזיות זהות. אנו מציינים שמערכת יכולה להשיג באופן טריוויאלי ציון זוגיות מגדרית מושלמת על ידי ניחוש אותה מחלקה עבור כל הדוגמאות, כך שציון זוגיות מגדרי גבוה הוא חסר משמעות אלא אם כן הוא מלווה בדייקנות גבוהה. כמבחן אבחון של הטיה מגדרית, אנו רואים בסכמות כבעלות ערך ניבוי חיובי גבוה וערך ניבוי שלילי נמוך; כלומר, הם עשויים להפגין נוכחות של הטיה מגדרית במערכת, אך לא להוכיח את היעדרה.

  • דף הבית : https://github.com/rudinger/winogender-schemas

  • גודל הורדה : 10.17 KiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 356
  • מבנה תכונה :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
הַשׁעָרָה טֶקסט tf.string
idx מוֹתֵחַ tf.int32
תווית ClassLabel tf.int64
הַנָחַת יְסוֹד טֶקסט tf.string
  • ציטוט :
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.