- Deskripsi :
Kumpulan data baru dari 7.787 pertanyaan sains pilihan ganda tingkat sekolah dasar asli, dikumpulkan untuk mendorong penelitian dalam menjawab pertanyaan tingkat lanjut. Dataset dipartisi menjadi Set Tantangan dan Set Mudah, di mana yang pertama hanya berisi pertanyaan yang dijawab dengan tidak benar oleh algoritme berbasis pengambilan dan algoritme kata bersama. Kami juga menyertakan korpus lebih dari 14 juta kalimat sains yang relevan dengan tugas, dan implementasi tiga model dasar neural untuk kumpulan data ini. Kami mengajukan ARC sebagai tantangan bagi komunitas.
Dibandingkan dengan kumpulan data asli, ini menambahkan kalimat konteks yang diperoleh melalui pengambilan informasi dengan cara yang sama seperti UnifiedQA (lihat: https://arxiv.org/abs/2005.00700 ).
Situs web : https://allenai.org/data/arc
Kode sumber :
tfds.question_answering.Ai2ArcWithIR
Versi :
-
1.0.0
(default): Tidak ada catatan rilis.
-
Ukuran unduhan :
3.68 MiB
Cache otomatis ( dokumentasi ): Ya
Fitur :
FeaturesDict({
'answerKey': ClassLabel(shape=(), dtype=tf.int64, num_classes=5),
'choices': Sequence({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=5),
'text': Text(shape=(), dtype=tf.string),
}),
'id': Text(shape=(), dtype=tf.string),
'paragraph': Text(shape=(), dtype=tf.string),
'question': Text(shape=(), dtype=tf.string),
})
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Kutipan :
@article{allenai:arc,
author = {Peter Clark and Isaac Cowhey and Oren Etzioni and Tushar Khot and
Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
title = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
journal = {arXiv:1803.05457v1},
year = {2018},
}
@article{2020unifiedqa,
title={UnifiedQA: Crossing Format Boundaries With a Single QA System},
author={D. Khashabi and S. Min and T. Khot and A. Sabhwaral and O. Tafjord and P. Clark and H. Hajishirzi},
journal={arXiv preprint},
year={2020}
}
- Gambar ( tfds.show_examples ): Tidak didukung.
ai2_arc_with_ir / ARC-Challenge-IR (konfigurasi default)
Deskripsi konfigurasi : Kumpulan Tantangan yang terdiri dari 2590 pertanyaan "sulit" (pertanyaan yang pengambilannya dan metode kejadiannya gagal dijawab dengan benar)
Ukuran set data :
3.76 MiB
Split :
Membagi | Contoh |
---|---|
'test' | 1.172 |
'train' | 1.119 |
'validation' | 299 |
- Contoh ( tfds.as_dataframe ):
ai2_arc_with_ir / ARC-Easy-IR
Deskripsi konfigurasi : Kumpulan Mudah 5197 pertanyaan untuk Tantangan ARC.
Ukuran set data :
7.49 MiB
Split :
Membagi | Contoh |
---|---|
'test' | 2.376 |
'train' | 2.251 |
'validation' | 570 |
- Contoh ( tfds.as_dataframe ):