asqa

  • Deskripsi :

ASQA adalah kumpulan data penjawab pertanyaan bentuk panjang pertama yang berfokus pada pertanyaan factoid yang ambigu. Berbeda dari kumpulan data jawaban bentuk panjang sebelumnya, setiap pertanyaan dianotasi dengan jawaban bentuk panjang dan pasangan pertanyaan-jawaban ekstraktif, yang harus dapat dijawab oleh bagian yang dihasilkan. Jawaban bentuk panjang yang dihasilkan akan dievaluasi menggunakan akurasi ROUGE dan QA. Kami menunjukkan bahwa metrik evaluasi ini berkorelasi dengan baik dengan penilaian manusia. Dalam repositori ini kami merilis kumpulan data ASQA, bersama dengan kode evaluasi: <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>

Membelah Contoh
'dev' 948
'train' 4.353
  • Struktur fitur :
FeaturesDict({
    'ambiguous_question': Text(shape=(), dtype=string),
    'annotations': Sequence({
        'knowledge': Sequence({
            'content': Text(shape=(), dtype=string),
            'wikipage': Text(shape=(), dtype=string),
        }),
        'long_answer': Text(shape=(), dtype=string),
    }),
    'qa_pairs': Sequence({
        'context': Text(shape=(), dtype=string),
        'question': Text(shape=(), dtype=string),
        'short_answers': Sequence(Text(shape=(), dtype=string)),
        'wikipage': Text(shape=(), dtype=string),
    }),
    'sample_id': int32,
    'wikipages': Sequence({
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
pertanyaan_ambigu Teks rangkaian Pertanyaan yang tidak ambigu dari AmbigQA.
anotasi Urutan Jawaban bentuk panjang untuk pertanyaan ambigu yang dibuat oleh anotator ASQA.
keterangan/pengetahuan Urutan Daftar potongan pengetahuan tambahan.
anotasi/pengetahuan/konten Teks rangkaian Sebuah bagian dari Wikipedia.
anotasi/pengetahuan/halaman wiki Teks rangkaian Judul halaman Wikipedia tempat bagian itu diambil.
anotasi/jawaban_panjang Teks rangkaian Anotasi.
qa_pairs Urutan Pasangan Tanya Jawab dari AmbigQA yang digunakan untuk disambiguasi.
qa_pairs/context Teks rangkaian Konteks tambahan disediakan.
qa_pairs/pertanyaan Teks rangkaian
qa_pairs/short_answers Urutan (Teks) (Tidak ada,) rangkaian Daftar jawaban singkat dari AmbigQA.
qa_pairs/halaman wiki Teks rangkaian Judul halaman Wikipedia tempat konteks tambahan diambil.
sample_id Tensor int32
halaman wiki Urutan Daftar halaman Wikipedia yang dikunjungi oleh anotator AmbigQA.
halaman wiki/judul Teks rangkaian Judul halaman Wikipedia.
halaman wiki/url Teks rangkaian Tautan ke halaman Wikipedia.
  • Kutipan :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}