tydi_qa

  • الوصف :

TyDi QA هو سؤال يجيب على مجموعة بيانات تغطي 11 لغة متنوعة نمطياً مع 204 ألف زوج من الأسئلة والأجوبة. تتنوع لغات TyDi QA فيما يتعلق بتصنيفها - مجموعة الميزات اللغوية التي تعبر عنها كل لغة - بحيث نتوقع أن يتم تعميم النماذج التي تعمل بشكل جيد في هذه المجموعة عبر عدد كبير من اللغات في العالم. يحتوي على ظواهر لغوية لا توجد في مجموعات اللغة الإنجليزية فقط. لتوفير مهمة البحث عن المعلومات الواقعية وتجنب التأثيرات الأولية ، تتم كتابة الأسئلة من قبل الأشخاص الذين يرغبون في معرفة الإجابة ، ولكن لا يعرفون الإجابة حتى الآن ، (على عكس SQuAD وتوابعه) ويتم جمع البيانات مباشرة في كل لغة بدون استخدام الترجمة (على عكس MLQA و XQuAD).

تقسيمات التدريب:

"تدريب": هذه هي مهمة GoldP من ورقة TyDi QA الأصلية [ https://arxiv.org/abs/2003.05002 ] التي تحتوي على بيانات تدريب مصنفة باللغة الأصلية.

'translate-train- *': هذه التقسيمات هي الترجمات الآلية من الإنجليزية إلى كل لغة هدف مستخدمة في خطوط الأساس المترجمة في ورقة XTREME [ https://arxiv.org/abs/2003.11080 ]. يتجاهل هذا عن قصد بيانات تدريب TyDiQA-GoldP غير الإنجليزية لمحاكاة سيناريو تعلم النقل حيث لا تتوفر بيانات اللغة الأصلية ويجب أن يعتمد منشئو النظام على البيانات الإنجليزية المصنفة بالإضافة إلى أنظمة الترجمة الآلية الحالية.

عادة ، يجب أن تستخدم إما القطار أو تقسيم القطار المترجم ، ولكن ليس كلاهما.

انشق، مزق أمثلة
'train' 49881
'translate-train-ar' 3،661
'translate-train-bn' 3585
'translate-train-fi' 3،670
'translate-train-id' 3،667
'translate-train-ko' 3،607
'translate-train-ru' 3،394
'translate-train-sw' 3،622
'translate-train-te' 3،658
'validation' 5،077
'validation-ar' 921
'validation-bn' 113
'validation-en' 440
'validation-fi' 782
'validation-id' 565
'validation-ko' 276
'validation-ru' 812
'validation-sw' 499
'validation-te' 669
  • هيكل الميزة :
FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
الإجابات تسلسل
الإجابات / answer_start موتر int32
الإجابات / النص نص سلسلة
سياق الكلام نص سلسلة
هوية شخصية موتر سلسلة
سؤال نص سلسلة
لقب نص سلسلة
  • الاقتباس :
@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa / goldp (التكوين الافتراضي)