tydi_qa

  • תיאור :

TyDi QA הוא מערך תשובות לשאלות המכסה 11 שפות מגוונות מבחינה טיפולוגית עם צמדי שאלות ותשובות של 204K. השפות של TyDi QA מגוונות בכל הנוגע לטיפולולוגיה שלהן -- מכלול המאפיינים הלשוניים שכל שפה מבטאת -- כך שאנו מצפים שמודלים עם ביצועים טובים בקבוצה זו יכללו על פני מספר רב מהשפות בעולם. הוא מכיל תופעות שפה שלא נמצאו בקורפוסים באנגלית בלבד. כדי לספק משימה מציאותית של חיפוש מידע ולהימנע מהשפעות ראשוניות, שאלות נכתבות על ידי אנשים שרוצים לדעת את התשובה, אך עדיין לא יודעים את התשובה, (בניגוד ל-SQuAD וצאצאיו) והנתונים נאספים ישירות בכל שפה ללא שימוש בתרגום (בניגוד ל-MLQA ו-XQuAD).

פיצולי אימון:

'רכבת': זוהי משימת GoldP מהמאמר המקורי TyDi QA [ https://arxiv.org/abs/2003.05002 ] הכולל נתוני הכשרה בשפה המקורית.

'translate-train-*': פיצולים אלה הם התרגומים האוטומטיים מאנגלית לכל שפת יעד המשמשת בקווי הבסיס של תרגום הרכבת במאמר XTREME [ https://arxiv.org/abs/2003.11080 ]. זה מתעלם בכוונה מנתוני ההדרכה שאינם באנגלית TyDiQA-GoldP כדי לדמות את תרחיש לימוד ההעברה שבו נתוני שפת מקור אינם זמינים ובוני מערכות חייבים להסתמך על נתונים מסומנים באנגלית בתוספת מערכות קיימות של תרגום מכונה.

בדרך כלל, עליך להשתמש בפיצול הרכבת או בפיצול תרגום-רכבת, אך לא בשניהם.

לְפַצֵל דוגמאות
'train' 49,881
'translate-train-ar' 3,661
'translate-train-bn' 3,585
'translate-train-fi' 3,670
'translate-train-id' 3,667
'translate-train-ko' 3,607
'translate-train-ru' 3,394
'translate-train-sw' 3,622
'translate-train-te' 3,658
'validation' 5,077
'validation-ar' 921
'validation-bn' 113
'validation-en' 440
'validation-fi' 782
'validation-id' 565
'validation-ko' 276
'validation-ru' 812
'validation-sw' 499
'validation-te' 669
  • מבנה תכונה :
FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תשובות סדר פעולות
answers/answer_start מוֹתֵחַ int32
תשובות/טקסט טֶקסט חוּט
הֶקשֵׁר טֶקסט חוּט
תְעוּדַת זֶהוּת מוֹתֵחַ חוּט
שְׁאֵלָה טֶקסט חוּט
כותרת טֶקסט חוּט
  • ציטוט :
@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa/goldp (תצורת ברירת המחדל)