תשובה_שוויון

  • תיאור :

מערך הנתונים של שווי תשובות מכיל דירוגים אנושיים על תחזיות מודל ממספר מודלים במערך הנתונים של SQuAD. הדירוגים קובעים אם התשובה החזויה 'שווה ערך' לתשובת הזהב (בהתחשב גם בשאלה וגם בהקשר).

ליתר דיוק, ב'מקביל' אנו מתכוונים לכך שהתשובה החזויה מכילה לפחות את אותו מידע כמו התשובה המוזהבת ואינה מוסיפה מידע מיותר. מערך הנתונים מכיל הערות עבור: * תחזיות מ-BiDAF ב-SQuAD dev * תחזיות מ-XLNet ב-SQuAD dev * תחזיות מ-Luke ב-SQuAD dev * תחזיות מאת אלברט על דוגמאות לאימונים, פיתוח ובדיקות של SQuAD

לְפַצֵל דוגמאות
'ae_dev' 4,446
'ae_test' 9,724
'dev_bidaf' 7,522
'dev_luke' 4,590
'dev_xlnet' 7,932
'train' 9,090
  • מבנה תכונה :
FeaturesDict({
    'candidate': Text(shape=(), dtype=string),
    'context': Text(shape=(), dtype=string),
    'gold_index': int32,
    'qid': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
    'question_1': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'question_2': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'question_3': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'question_4': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'reference': Text(shape=(), dtype=string),
    'score': float32,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מוּעֲמָד טֶקסט חוּט
הֶקשֵׁר טֶקסט חוּט
gold_index מוֹתֵחַ int32
qid טֶקסט חוּט
שְׁאֵלָה טֶקסט חוּט
שאלה 1 ClassLabel int64
שאלה 2 ClassLabel int64
שאלה_3 ClassLabel int64
שאלה_4 ClassLabel int64
התייחסות טֶקסט חוּט
ציון מוֹתֵחַ לצוף32
  • ציטוט :
@article{bulian-etal-2022-tomayto,
      title={Tomayto, Tomahto. Beyond Token-level Answer Equivalence for Question Answering Evaluation},
      author={Jannis Bulian and Christian Buck and Wojciech Gajewski and Benjamin Boerschinger and Tal Schuster},
      year={2022},
      eprint={2202.07654},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}