tydi_qa

  • Açıklama:

TyDi QA, 204K soru-cevap çifti ile tipolojik olarak farklı 11 dili kapsayan bir soru cevap veri setidir. TyDi QA'nın dilleri, tipolojilerine göre çeşitlilik gösterir - her dilin ifade ettiği dilsel özellikler kümesi - öyle ki, bu kümede iyi performans gösteren modellerin dünyadaki çok sayıda dilde genellenmesini bekliyoruz. Yalnızca İngilizce corpora'da bulunmayacak olan dil fenomenlerini içerir. Gerçekçi bir bilgi arama görevi sağlamak ve hazırlama etkilerinden kaçınmak için, sorular, cevabını bilmek isteyen ancak henüz cevabı bilmeyen kişiler tarafından (SQuAD ve onun soyundan gelenlerin aksine) yazılır ve veriler doğrudan her dilde toplanır. çeviri kullanmadan (MLQA ve XQuAD'ın aksine).

Eğitim bölmeleri:

'tren': Bu orijinal TyDi QA kağıttan [dan GoldP iştir https://arxiv.org/abs/2003.05002 orijinal dildeki etiketli eğitim verilerine sahip].

'tercüme-tren kondüktörleri *': Bu böler XTREME kağıt [tercüme-tren taban kullanılan her hedef dilde İngilizce'den otomatik çevirileri vardır https://arxiv.org/abs/2003.11080 ]. Bu, orijinal dil verilerinin mevcut olmadığı ve sistem oluşturucuların etiketli İngilizce verilere ve mevcut makine çevirisi sistemlerine güvenmek zorunda olduğu transfer öğrenme senaryosunu simüle etmek için İngilizce olmayan TyDiQA-GoldP eğitim verilerini kasıtlı olarak yok sayar.

Tipik olarak, tren ya da çeviri-tren bölmesini KULLANMALISINIZ, ancak ikisini birden kullanmamalısınız.

Bölmek Örnekler
'train' 49.881
'translate-train-ar' 3.661
'translate-train-bn' 3.585
'translate-train-fi' 3.670
'translate-train-id' 3.667
'translate-train-ko' 3.607
'translate-train-ru' 3.394
'translate-train-sw' 3.622
'translate-train-te' 3.658
'validation' 5.077
'validation-ar' 921
'validation-bn' 113
'validation-en' 440
'validation-fi' 782
'validation-id' 565
'validation-ko' 276
'validation-ru' 812
'validation-sw' 499
'validation-te' 669
  • Özellikler:
FeaturesDict({
    'answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'context': Text(shape=(), dtype=tf.string),
    'id': tf.string,
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
  • Citation:
@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa/goldp (varsayılan yapılandırma)