segi empat

  • Deskripsi :

XQuAD (Kumpulan Data Penjawab Pertanyaan Lintas Bahasa) adalah kumpulan data tolok ukur untuk mengevaluasi kinerja menjawab pertanyaan lintas bahasa. Dataset terdiri dari subset 240 paragraf dan 1190 pasangan tanya jawab dari set pengembangan SQuAD v1.1 (Rajpurkar et al., 2016) bersama dengan terjemahan profesionalnya ke dalam sepuluh bahasa: Spanyol, Jerman, Yunani, Rusia, Turki , Arab, Vietnam, Thailand, China, dan Hindi. Akibatnya, kumpulan data sepenuhnya paralel di 11 bahasa. Untuk menjalankan XQuAD dalam pengaturan zero-shot default, gunakan data pelatihan dan validasi SQuAD v1.1 di sini: https://www.tensorflow.org/datasets/catalog/squad

Kami juga menyertakan pemisahan "translate-train", "translate-dev", dan "translate-test" untuk setiap bahasa selain bahasa Inggris dari XTREME (Hu et al., 2020). Ini dapat digunakan untuk menjalankan XQuAD di pengaturan "translate-train" atau "translate-test".

FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
jawaban Urutan
jawaban/jawaban_mulai Tensor int32
jawaban/teks Teks rangkaian
konteks Teks rangkaian
Indo Tensor rangkaian
pertanyaan Teks rangkaian
judul Teks rangkaian
@article{Artetxe:etal:2019,
      author    = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
      title     = {On the cross-lingual transferability of monolingual representations},
      journal   = {CoRR},
      volume    = {abs/1910.11856},
      year      = {2019},
      archivePrefix = {arXiv},
      eprint    = {1910.11856}
}

xquad/ar (konfigurasi default)

  • Deskripsi konfigurasi : Pemisahan pengujian XQuAD 'ar', dengan pemisahan terjemahan-kereta/terjemahan-dev/terjemahkan-terjemahan mesin dari XTREME (Hu et al., 2020).

  • Ukuran unduhan : 420.97 MiB

  • Ukuran dataset : 134.83 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'test' 1.190
'translate-dev' 10.541
'translate-test' 1.151
'translate-train' 86.787

xquad/de

  • Deskripsi konfigurasi : XQuAD 'de' test split, dengan terjemahan mesin translate-train/translate-dev/translate-test splits dari XTREME (Hu et al., 2020).

  • Ukuran unduhan : 127.04 MiB

  • Ukuran dataset : 98.80 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'test' 1.190
'translate-dev' 10.371
'translate-test' 1.168
'translate-train' 82.603

xquad/el

  • Deskripsi konfigurasi : XQuAD 'el' test split, dengan terjemahan mesin terjemahan-kereta/translate-dev/translate-test split dari XTREME (Hu et al., 2020).

  • Ukuran unduhan : 499.40 MiB

  • Ukuran dataset : 157.90 MiB

  • Auto-cached ( dokumentasi ): Ya (test, translate-dev, translate-test), Hanya ketika shuffle_files=False (translate-train)

  • Perpecahan :

Membelah Contoh
'test' 1.190
'translate-dev' 10.100
'translate-test' 1.182
'translate-train' 79.946

xquad/es

  • Deskripsi konfigurasi : Pembagian uji XQuAD 'es', dengan pemisahan terjemahan-kereta/terjemahan-dev/terjemahan-tes yang diterjemahkan mesin dari XTREME (Hu et al., 2020).

  • Ukuran unduhan : 138.41 MiB

  • Ukuran dataset : 104.96 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'test' 1.190
'translate-dev' 10.566
'translate-test' 1.188
'translate-train' 87.488

xquad/hi

  • Deskripsi konfigurasi : XQuAD 'hi' test split, dengan terjemahan mesin translate-train/translate-dev/translate-test splits dari XTREME (Hu et al., 2020).

  • Ukuran unduhan : 472.23 MiB

  • Ukuran dataset : 207.85 MiB

  • Auto-cached ( dokumentasi ): Ya (test, translate-dev, translate-test), Hanya ketika shuffle_files=False (translate-train)

  • Perpecahan :

Membelah Contoh
'test' 1.190
'translate-dev' 10.536
'translate-test' 1.184
'translate-train' 85.804

xquad/ru

  • Deskripsi konfigurasi : Pembagian uji XQuAD 'ru', dengan pemisahan terjemahan-kereta/terjemahan-dev/terjemahan-tes yang diterjemahkan mesin dari XTREME (Hu et al., 2020).

  • Ukuran unduhan : 513.80 MiB

  • Ukuran dataset : 159.38 MiB

  • Auto-cached ( dokumentasi ): Ya (test, translate-dev, translate-test), Hanya ketika shuffle_files=False (translate-train)

  • Perpecahan :

Membelah Contoh
'test' 1.190
'translate-dev' 10.469
'translate-test' 1.190
'translate-train' 84.869

xquad/th

  • Deskripsi konfigurasi : XQuAD 'th' test split, dengan terjemahan mesin translate-train/translate-dev/translate-test splits dari XTREME (Hu et al., 2020).

  • Ukuran unduhan : 461.54 MiB

  • Ukuran dataset : 199.57 MiB

  • Auto-cached ( dokumentasi ): Ya (test, translate-dev, translate-test), Hanya ketika shuffle_files=False (translate-train)

  • Perpecahan :

Membelah Contoh
'test' 1.190
'translate-dev' 10.516
'translate-test' 1.157
'translate-train' 85.846

xquad/tr

  • Deskripsi konfigurasi : Pemisahan pengujian XQuAD 'tr', dengan pemisahan terjemahan-kereta/terjemahan-dev/terjemahan-pengujian mesin dari XTREME (Hu et al., 2020).

  • Ukuran unduhan : 151.08 MiB

  • Ukuran dataset : 97.56 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'test' 1.190
'translate-dev' 10.535
'translate-test' 1.112
'translate-train' 86.511

xquad/vi

  • Deskripsi konfigurasi : Pembagian uji XQuAD 'vi', dengan pemisahan terjemahan-kereta/terjemahan-dev/terjemahan-tes yang diterjemahkan mesin dari XTREME (Hu et al., 2020).

  • Ukuran unduhan : 218.09 MiB

  • Ukuran dataset : 120.03 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'test' 1.190
'translate-dev' 10.555
'translate-test' 1.178
'translate-train' 87.187

xquad/zh

  • Deskripsi konfigurasi : Pembagian uji XQuAD 'zh', dengan pemisahan terjemahan-kereta/terjemahan-dev/terjemahan-tes yang diterjemahkan mesin dari XTREME (Hu et al., 2020).

  • Ukuran unduhan : 174.57 MiB

  • Ukuran dataset : 80.79 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'test' 1.190
'translate-dev' 10.475
'translate-test' 1.186
'translate-train' 85.700

xquad/en

  • Deskripsi konfigurasi : Tes split XQuAD 'en'.

  • Ukuran unduhan : 595.10 KiB

  • Ukuran dataset : 1.19 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'test' 1.190