tydi_qa

תיאור :

TyDi QA הוא מערך תשובות לשאלות המכסה 11 שפות מגוונות מבחינה טיפולוגית עם צמדי שאלות ותשובות של 204K. השפות של TyDi QA מגוונות בכל הנוגע לטיפולולוגיה שלהן -- מכלול המאפיינים הלשוניים שכל שפה מבטאת -- כך שאנו מצפים שמודלים עם ביצועים טובים בקבוצה זו יכללו על פני מספר רב מהשפות בעולם. הוא מכיל תופעות שפה שלא נמצאו בקורפוסים באנגלית בלבד. כדי לספק משימה מציאותית של חיפוש מידע ולהימנע מהשפעות ראשוניות, שאלות נכתבות על ידי אנשים שרוצים לדעת את התשובה, אך עדיין לא יודעים את התשובה, (בניגוד ל-SQuAD וצאצאיו) והנתונים נאספים ישירות בכל שפה ללא שימוש בתרגום (בניגוד ל-MLQA ו-XQuAD).

פיצולי אימון:

'רכבת': זוהי משימת GoldP מהמאמר המקורי TyDi QA [ https://arxiv.org/abs/2003.05002 ] הכולל נתוני הכשרה בשפה המקורית.

'translate-train-*': פיצולים אלה הם התרגומים האוטומטיים מאנגלית לכל שפת יעד המשמשת בקווי הבסיס של תרגום הרכבת במאמר XTREME [ https://arxiv.org/abs/2003.11080 ]. זה מתעלם בכוונה מנתוני ההדרכה שאינם באנגלית TyDiQA-GoldP כדי לדמות את תרחיש לימוד ההעברה שבו נתוני שפת מקור אינם זמינים ובוני מערכות חייבים להסתמך על נתונים מסומנים באנגלית בתוספת מערכות קיימות של תרגום מכונה.

בדרך כלל, עליך להשתמש בפיצול הרכבת או בפיצול תרגום-רכבת, אך לא בשניהם.

תיעוד נוסף : חקור על ניירות עם קוד
תיאור תצורה : משימה של מעבר זהב (GoldP) ( https://github.com/google-research-datasets/tydiqa/tree/master/gold_passage_baseline ).
דף הבית : https://github.com/google-research-datasets/tydiqa
קוד מקור : tfds.question_answering.TydiQA
גרסאות :
- 3.0.0 (ברירת מחדל): מתקן בעיה במספר דוגמאות שבהן טווחי התשובות לא מיושרים עקב הסרת רווח לבן בהקשר. שינוי זה משפיע על כ-25% מהדוגמאות לרכבות ולפיתוחים.
גודל הורדה : 121.30 MiB
גודל מערך נתונים : 98.35 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :

לְפַצֵל	דוגמאות
`'train'`	49,881
`'translate-train-ar'`	3,661
`'translate-train-bn'`	3,585
`'translate-train-fi'`	3,670
`'translate-train-id'`	3,667
`'translate-train-ko'`	3,607
`'translate-train-ru'`	3,394
`'translate-train-sw'`	3,622
`'translate-train-te'`	3,658
`'validation'`	5,077
`'validation-ar'`	921
`'validation-bn'`	113
`'validation-en'`	440
`'validation-fi'`	782
`'validation-id'`	565
`'validation-ko'`	276
`'validation-ru'`	812
`'validation-sw'`	499
`'validation-te'`	669

מבנה תכונה :

FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})

תיעוד תכונה :

תכונה	מעמד	Dtype
	FeaturesDict
תשובות	סדר פעולות
answers/answer_start	מוֹתֵחַ	int32
תשובות/טקסט	טֶקסט	חוּט
הֶקשֵׁר	טֶקסט	חוּט
תְעוּדַת זֶהוּת	מוֹתֵחַ	חוּט
שְׁאֵלָה	טֶקסט	חוּט
כותרת	טֶקסט	חוּט

מפתחות בפיקוח (ראה as_supervised doc ): None
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):

ציטוט :

@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa

tydi_qa/goldp (תצורת ברירת המחדל)