Halaman ini diterjemahkan oleh Cloud Translation API.
Switch to English

tydi_qa

  • Deskripsi :

TyDi QA adalah set data jawaban pertanyaan yang mencakup 11 bahasa dengan tipologi beragam dengan 204K pasangan pertanyaan-jawaban. Bahasa TyDi QA beragam sehubungan dengan tipologi mereka - kumpulan fitur linguistik yang diungkapkan setiap bahasa - sedemikian rupa sehingga kami mengharapkan model yang berkinerja baik pada kumpulan ini untuk menggeneralisasi di sejumlah besar bahasa di dunia. Ini berisi fenomena bahasa yang tidak akan ditemukan di korpora hanya bahasa Inggris. Untuk memberikan tugas pencarian informasi yang realistis dan menghindari efek priming, pertanyaan ditulis oleh orang-orang yang ingin mengetahui jawabannya, tetapi belum mengetahui jawabannya, (tidak seperti SQuAD dan turunannya) dan data dikumpulkan secara langsung dalam setiap bahasa. tanpa menggunakan terjemahan (tidak seperti MLQA dan XQuAD).

Perpecahan pelatihan:

'train': Ini adalah tugas GoldP dari makalah TyDi QA asli [ https://arxiv.org/abs/2003.05002 ] yang memiliki data pelatihan berlabel bahasa asli.

'translate-train- *': Perpecahan ini adalah terjemahan otomatis dari bahasa Inggris ke setiap bahasa target yang digunakan dalam baseline translate-train di makalah XTREME [ https://arxiv.org/abs/2003.11080 ]. Tindakan ini sengaja mengabaikan data pelatihan TyDiQA-GoldP non-Inggris untuk mensimulasikan skenario pembelajaran transfer di mana data dalam bahasa asli tidak tersedia dan pembuat sistem harus mengandalkan data bahasa Inggris berlabel plus sistem terjemahan mesin yang ada.

Biasanya, Anda harus menggunakan salah satu train atau translate-train split, tetapi tidak keduanya.

Membagi Contoh
'train' 49.881
'validation' 5.077
'validation-ar' 921
'validation-bn' 113
'validation-en' 440
'validation-fi' 782
'validation-id' 565
'validation-ko' 276
'validation-ru' 812
'validation-sw' 499
'validation-te' 669
  • Fitur :
FeaturesDict({
    'answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'context': Text(shape=(), dtype=tf.string),
    'id': tf.string,
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa / goldp (konfigurasi default)