ai2_arc_with_ir

  • Deskripsi :

Kumpulan data baru dari 7.787 pertanyaan sains pilihan ganda tingkat sekolah dasar asli, dikumpulkan untuk mendorong penelitian dalam menjawab pertanyaan tingkat lanjut. Dataset dipartisi menjadi Kumpulan Tantangan dan Kumpulan Mudah, di mana yang pertama hanya berisi pertanyaan yang dijawab salah oleh algoritme berbasis pengambilan dan algoritme kejadian bersama kata. Kami juga menyertakan kumpulan lebih dari 14 juta kalimat sains yang relevan dengan tugas tersebut, dan penerapan tiga model dasar saraf untuk kumpulan data ini. Kami menjadikan ARC sebagai tantangan bagi komunitas.

Dibandingkan dengan kumpulan data asli, ini menambahkan kalimat konteks yang diperoleh melalui pencarian informasi dengan cara yang sama seperti UnifiedQA (lihat: https://arxiv.org/abs/2005.00700 ).

FeaturesDict({
    'answerKey': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'choices': Sequence({
        'label': ClassLabel(shape=(), dtype=int64, num_classes=5),
        'text': Text(shape=(), dtype=string),
    }),
    'id': Text(shape=(), dtype=string),
    'paragraph': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
kunci jawaban LabelKelas int64
pilihan Urutan
pilihan/label LabelKelas int64
pilihan/teks Teks rangkaian
Indo Teks rangkaian
gugus kalimat Teks rangkaian
pertanyaan Teks rangkaian
@article{allenai:arc,
      author    = {Peter Clark  and Isaac Cowhey and Oren Etzioni and Tushar Khot and
                    Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
      title     = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
      journal   = {arXiv:1803.05457v1},
      year      = {2018},
}
@article{2020unifiedqa,
    title={UnifiedQA: Crossing Format Boundaries With a Single QA System},
    author={D. Khashabi and S. Min and T. Khot and A. Sabhwaral and O. Tafjord and P. Clark and H. Hajishirzi},
    journal={arXiv preprint},
    year={2020}
}

ai2_arc_with_ir/ARC-Challenge-IR (konfigurasi default)

  • Deskripsi konfigurasi : Kumpulan Tantangan dari 2590 pertanyaan "sulit" (pertanyaan yang gagal dijawab dengan benar oleh metode pengambilan dan kejadian bersama)

  • Ukuran dataset : 3.76 MiB

  • Perpecahan :

Membelah Contoh
'test' 1.172
'train' 1.119
'validation' 299

ai2_arc_with_ir/ARC-Easy-IR

  • Deskripsi konfigurasi : Kumpulan 5197 pertanyaan yang mudah untuk Tantangan ARC.

  • Ukuran dataset : 7.49 MiB

  • Perpecahan :

Membelah Contoh
'test' 2.376
'train' 2.251
'validation' 570