answer_equivalence

  • คำอธิบาย :

ชุดข้อมูลความเท่าเทียมกันของคำตอบประกอบด้วยการให้คะแนนโดยมนุษย์ในการคาดคะเนแบบจำลองจากแบบจำลองต่างๆ ในชุดข้อมูล SQuAD การให้คะแนนกำหนดว่าคำตอบที่คาดคะเนนั้น 'เทียบเท่า' กับคำตอบทองคำหรือไม่ (พิจารณาทั้งคำถามและบริบท)

โดยเฉพาะอย่างยิ่ง โดยคำว่า 'เทียบเท่า' เราหมายความว่าคำตอบที่คาดคะเนมีข้อมูลอย่างน้อยเหมือนกับคำตอบทองคำ และไม่เพิ่มข้อมูลที่ไม่จำเป็น ชุดข้อมูลประกอบด้วยคำอธิบายประกอบสำหรับ: * การคาดคะเนจาก BiDAF บน SQuAD dev * การคาดคะเนจาก XLNet บน SQuAD dev * การคาดคะเนจาก Luke บน SQuAD dev * การคาดคะเนจาก Albert ในการฝึกอบรม SQuAD ผู้พัฒนา และตัวอย่างการทดสอบ

แยก ตัวอย่าง
'ae_dev' 4,446
'ae_test' 9,724
'dev_bidaf' 7,522
'dev_luke' 4,590
'dev_xlnet' 7,932
'train' 9,090
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'candidate': Text(shape=(), dtype=string),
    'context': Text(shape=(), dtype=string),
    'gold_index': int32,
    'qid': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
    'question_1': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'question_2': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'question_3': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'question_4': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'reference': Text(shape=(), dtype=string),
    'score': float32,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ผู้สมัคร ข้อความ สตริง
บริบท ข้อความ สตริง
gold_index เทนเซอร์ int32
คิด ข้อความ สตริง
คำถาม ข้อความ สตริง
คำถามที่ 1 ป้ายกำกับคลาส int64
คำถามที่ 2 ป้ายกำกับคลาส int64
คำถามที่ 3 ป้ายกำกับคลาส int64
คำถามที่ 4 ป้ายกำกับคลาส int64
อ้างอิง ข้อความ สตริง
คะแนน เทนเซอร์ ลอย32
  • การอ้างอิง :
@article{bulian-etal-2022-tomayto,
      title={Tomayto, Tomahto. Beyond Token-level Answer Equivalence for Question Answering Evaluation},
      author={Jannis Bulian and Christian Buck and Wojciech Gajewski and Benjamin Boerschinger and Tal Schuster},
      year={2022},
      eprint={2202.07654},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}