ช่วยปกป้อง Great Barrier Reef กับ TensorFlow บน Kaggle เข้าร่วมท้าทาย

tydi_qa

  • รายละเอียด:

TyDi QA เป็นชุดข้อมูลการตอบคำถามซึ่งครอบคลุม 11 ภาษาที่มีความหลากหลายทางตัวอักษรพร้อมคู่ตอบคำถาม 204K ภาษาของ TyDi QA นั้นมีความหลากหลายตามประเภท - ชุดของคุณสมบัติทางภาษาที่แต่ละภาษาแสดงออก - เราคาดหวังว่าแบบจำลองจะทำงานได้ดีในชุดนี้จะแพร่หลายในภาษาจำนวนมากในโลก ประกอบด้วยปรากฏการณ์ทางภาษาที่ไม่พบในเนื้อความภาษาอังกฤษเท่านั้น เพื่อให้งานค้นหาข้อมูลที่เป็นจริงและหลีกเลี่ยงผลกระทบเบื้องต้น คำถามจะถูกเขียนขึ้นโดยผู้ที่ต้องการทราบคำตอบ แต่ยังไม่ทราบคำตอบ (ต่างจาก SQuAD และรุ่นต่อๆ มา) และข้อมูลจะถูกเก็บรวบรวมโดยตรงในแต่ละภาษา โดยไม่ต้องใช้การแปล (ต่างจาก MLQA และ XQuAD)

การแบ่งการฝึกอบรม:

'รถไฟ': นี่คืองาน GoldP ไปจากเดิมกระดาษ tyDi QA [ https://arxiv.org/abs/2003.05002 ] ที่มีในภาษาเดิมที่มีป้ายกำกับข้อมูลการฝึกอบรม

'แปล-train- *': แยกเหล่านี้คือการแปลอัตโนมัติจากภาษาอังกฤษเป็นภาษาเป้าหมายแต่ละที่ใช้ในเส้นเขตแดนแปลรถไฟในกระดาษ XTREME [การ https://arxiv.org/abs/2003.11080 ] โดยจงใจละเว้นข้อมูลการฝึกอบรม TyDiQA-GoldP ที่ไม่ใช่ภาษาอังกฤษ เพื่อจำลองสถานการณ์การเรียนรู้การถ่ายโอนที่ไม่มีข้อมูลภาษาต้นฉบับ และผู้สร้างระบบต้องอาศัยข้อมูลภาษาอังกฤษที่มีป้ายกำกับ บวกกับระบบการแปลด้วยเครื่องที่มีอยู่

โดยทั่วไปแล้ว คุณควรใช้รถไฟหรือแยกรถไฟอย่างใดอย่างหนึ่ง แต่ไม่ใช่ทั้งสองอย่าง

  • คำอธิบาย Config: เนื้อเรื่องทอง (GoldP) งาน ( https://github.com/google-research-datasets/tydiqa/tree/master/gold_passage_baseline )

  • โฮมเพจ: https://github.com/google-research-datasets/tydiqa

  • รหัสที่มา: tfds.question_answering.TydiQA

  • รุ่น:

    • 3.0.0 (เริ่มต้น): การแก้ไขปัญหาที่มีจำนวนของตัวอย่างที่ครอบคลุมคำตอบจะ misaligned เนื่องจากบริบทการกำจัดพื้นที่สีขาว การเปลี่ยนแปลงนี้ส่งผลกระทบประมาณ 25% ของตัวอย่างการฝึกและการพัฒนา
  • ขนาดการดาวน์โหลด: 121.30 MiB

  • ขนาดชุด: 98.35 MiB

  • ออโต้แคช ( เอกสาร ): ใช่

  • แยก:

แยก ตัวอย่าง
'train' 49,881
'translate-train-ar' 3,661
'translate-train-bn' 3,585
'translate-train-fi' 3,670
'translate-train-id' 3,667
'translate-train-ko' 3,607
'translate-train-ru' 3,394
'translate-train-sw' 3,622
'translate-train-te' 3,658
'validation' 5,077
'validation-ar' 921
'validation-bn' 113
'validation-en' 440
'validation-fi' 782
'validation-id' 565
'validation-ko' 276
'validation-ru' 812
'validation-sw' 499
'validation-te' 669
  • คุณสมบัติ:
FeaturesDict({
    'answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'context': Text(shape=(), dtype=tf.string),
    'id': tf.string,
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa/goldp (การกำหนดค่าเริ่มต้น)