tydi_qa

  • תיאור:

TyDi QA הוא מערך נתונים לענות על שאלות המכסה 11 שפות שונות מבחינה טיפולוגית עם 204K זוגות תשובה. השפות של TyDi QA מגוונות ביחס לטיפולוגיה שלהן - מכלול המאפיינים הלשוניים שכל שפה מבטאת - כך שאנו מצפים מהמודלים המתפקדים היטב במערך זה להכליל במספר רב של השפות בעולם. הוא מכיל תופעות שפה שלא היו נמצאות בתאגידים באנגלית בלבד. כדי לספק משימה מציאותית לחיפוש מידע ולהימנע מהשפעות תחלואה, שאלות נכתבות על ידי אנשים שרוצים לדעת את התשובה, אך עדיין לא יודעים את התשובה, (בניגוד ל- SQuAD וצאצאיה) והנתונים נאספים ישירות בכל שפה ללא שימוש בתרגום (בניגוד ל- MLQA ו- XQuAD).

פיצול האימונים:

"רכבת": זוהי משימת GoldP מעיתון TyDi QA המקורי [ https://arxiv.org/abs/2003.05002 ] כי יש נתוני אימון שכותרתו בשפה מקורית.

"לתרגם-train- *": פיצולים אלו הם תרגומים אוטומטיים מאנגלית לכל שפה היעד המשמשים קווי המגרש לתרגם-הרכבת בעיתון XTREME [ https://arxiv.org/abs/2003.11080 ]. זה מתעלם בכוונה מנתוני ההדרכה שאינם אנגלית TyDiQA-GoldP כדי לדמות את תרחיש למידת ההעברות שבו אין נתונים בשפה מקורית ובוני המערכת חייבים להסתמך על נתונים מתואמים באנגלית בתוספת מערכות תרגום מכונות קיימות.

בדרך כלל, עליך להשתמש בבין אם ברכבת או בתרגום רכבת, אך לא בשניהם.

לְפַצֵל דוגמאות
'train' 49,881
'translate-train-ar' 3,661
'translate-train-bn' 3,585
'translate-train-fi' 3,670
'translate-train-id' 3,667
'translate-train-ko' 3,607
'translate-train-ru' 3,394
'translate-train-sw' 3,622
'translate-train-te' 3,658
'validation' 5,077
'validation-ar' 921
'validation-bn' 113
'validation-en' 440
'validation-fi' 782
'validation-id' 565
'validation-ko' 276
'validation-ru' 812
'validation-sw' 499
'validation-te' 669
  • מאפיינים:
FeaturesDict({
    'answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'context': Text(shape=(), dtype=tf.string),
    'id': tf.string,
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
  • ציטוט:
@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa/goldp (הגדרת ברירת מחדל)