আসকা

  • বর্ণনা :

ASQA হল প্রথম দীর্ঘ-ফর্মের প্রশ্নের উত্তর দেওয়ার ডেটাসেট যা অস্পষ্ট ফ্যাক্টয়েড প্রশ্নগুলিতে ফোকাস করে। পূর্ববর্তী লং-ফর্ম উত্তর ডেটাসেট থেকে ভিন্ন, প্রতিটি প্রশ্ন লং-ফর্ম উত্তর এবং উত্তোলনমূলক প্রশ্ন-উত্তর জোড়া দিয়ে টীকা করা হয়, যেগুলি উত্পন্ন উত্তরণ দ্বারা উত্তরযোগ্য হওয়া উচিত। একটি উৎপন্ন দীর্ঘ-ফর্ম উত্তর ROUGE এবং QA উভয় নির্ভুলতা ব্যবহার করে মূল্যায়ন করা হবে। আমরা দেখিয়েছি যে এই মূল্যায়ন মেট্রিকগুলি মানুষের বিচারের সাথে ভালভাবে সম্পর্কিত। এই সংগ্রহস্থলে আমরা মূল্যায়ন কোড সহ ASQA ডেটাসেট প্রকাশ করি: <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>

বিভক্ত উদাহরণ
'dev' 948
'train' 4,353
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'ambiguous_question': Text(shape=(), dtype=string),
    'annotations': Sequence({
        'knowledge': Sequence({
            'content': Text(shape=(), dtype=string),
            'wikipage': Text(shape=(), dtype=string),
        }),
        'long_answer': Text(shape=(), dtype=string),
    }),
    'qa_pairs': Sequence({
        'context': Text(shape=(), dtype=string),
        'question': Text(shape=(), dtype=string),
        'short_answers': Sequence(Text(shape=(), dtype=string)),
        'wikipage': Text(shape=(), dtype=string),
    }),
    'sample_id': int32,
    'wikipages': Sequence({
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
অস্পষ্ট_প্রশ্ন পাঠ্য স্ট্রিং AmbigQA থেকে দ্ব্যর্থহীন প্রশ্ন।
টীকা ক্রম ASQA টীকাকারদের দ্বারা নির্মিত অস্পষ্ট প্রশ্নের দীর্ঘ-ফর্মের উত্তর।
টীকা/জ্ঞান ক্রম অতিরিক্ত জ্ঞান টুকরা তালিকা.
টীকা/জ্ঞান/কন্টেন্ট পাঠ্য স্ট্রিং উইকিপিডিয়া থেকে একটি উত্তরণ.
টীকা/জ্ঞান/উইকিপৃষ্ঠা পাঠ্য স্ট্রিং উইকিপিডিয়া পৃষ্ঠার শিরোনামটি থেকে নেওয়া হয়েছে।
টীকা/দীর্ঘ_উত্তর পাঠ্য স্ট্রিং টীকা।
qa_জোড়া ক্রম AmbigQA থেকে প্রশ্নোত্তর জোড়া যা দ্ব্যর্থতা নিরসন করার জন্য ব্যবহৃত হয়।
qa_pairs/প্রসঙ্গ পাঠ্য স্ট্রিং অতিরিক্ত প্রসঙ্গ প্রদান করা হয়েছে.
qa_pairs/প্রশ্ন পাঠ্য স্ট্রিং
qa_pairs/short_answers ক্রম (পাঠ্য) (কোনটিই নয়,) স্ট্রিং AmbigQA থেকে সংক্ষিপ্ত উত্তরের তালিকা।
qa_pairs/উইকিপৃষ্ঠা পাঠ্য স্ট্রিং উইকিপিডিয়া পাতার শিরোনাম থেকে অতিরিক্ত প্রসঙ্গটি নেওয়া হয়েছে।
নমুনা_আইডি টেনসর int32
উইকিপেজ ক্রম AmbigQA টীকাকারদের দ্বারা পরিদর্শন করা উইকিপিডিয়া পৃষ্ঠাগুলির তালিকা৷
উইকিপেজ/শিরোনাম পাঠ্য স্ট্রিং উইকিপিডিয়া পৃষ্ঠার শিরোনাম।
wikipages/url পাঠ্য স্ট্রিং উইকিপিডিয়া পাতার লিঙ্ক।
  • উদ্ধৃতি :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}