תשובה_שוויון

  • תיאור :

מערך הנתונים של שווי תשובות מכיל דירוגים אנושיים על תחזיות מודל ממספר מודלים במערך הנתונים של SQuAD. הדירוגים קובעים אם התשובה החזויה 'שווה ערך' לתשובת הזהב (בהתחשב גם בשאלה וגם בהקשר).

ליתר דיוק, ב'מקביל' אנו מתכוונים לכך שהתשובה החזויה מכילה לפחות את אותו מידע כמו התשובה המוזהבת ואינה מוסיפה מידע מיותר. מערך הנתונים מכיל הערות עבור: * תחזיות מ-BiDAF ב- SQuAD dev * תחזיות מ-XLNet ב- SQuAD dev * תחזיות מ- Luke ב- SQuAD dev * תחזיות מאת אלברט על דוגמאות לאימונים, פיתוח ובדיקות SQuAD

לְפַצֵל דוגמאות
'ae_dev' 4,446
'ae_test' 9,724
'dev_bidaf' 7,522
'dev_luke' 4,590
'dev_xlnet' 7,932
'train' 9,090
  • מבנה תכונה :
FeaturesDict({
    'candidate': Text(shape=(), dtype=tf.string),
    'context': Text(shape=(), dtype=tf.string),
    'gold_index': tf.int32,
    'qid': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
    'question_1': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'question_2': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'question_3': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'question_4': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'reference': Text(shape=(), dtype=tf.string),
    'score': tf.float32,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מוּעֲמָד טֶקסט tf.string
הֶקשֵׁר טֶקסט tf.string
gold_index מוֹתֵחַ tf.int32
qid טֶקסט tf.string
שְׁאֵלָה טֶקסט tf.string
שאלה 1 ClassLabel tf.int64
שאלה 2 ClassLabel tf.int64
שאלה_3 ClassLabel tf.int64
שאלה_4 ClassLabel tf.int64
התייחסות טֶקסט tf.string
ציון מוֹתֵחַ tf.float32
  • ציטוט :
@article{bulian-etal-2022-tomayto,
      title={Tomayto, Tomahto. Beyond Token-level Answer Equivalence for Question Answering Evaluation},
      author={Jannis Bulian and Christian Buck and Wojciech Gajewski and Benjamin Boerschinger and Tal Schuster},
      year={2022},
      eprint={2202.07654},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}