ai2_arc_with_ir

  • বর্ণনা :

7,787 প্রকৃত গ্রেড-স্কুল স্তরের একটি নতুন ডেটাসেট, বহুনির্বাচনী বিজ্ঞানের প্রশ্ন, উন্নত প্রশ্ন-উত্তর গবেষণায় উৎসাহিত করার জন্য একত্রিত করা হয়েছে। ডেটাসেটটিকে একটি চ্যালেঞ্জ সেট এবং একটি সহজ সেটে বিভক্ত করা হয়েছে, যেখানে প্রাক্তনটিতে শুধুমাত্র একটি পুনরুদ্ধার-ভিত্তিক অ্যালগরিদম এবং একটি শব্দ সহ-ঘটনা অ্যালগরিদম উভয়ের দ্বারা ভুল উত্তর দেওয়া প্রশ্ন রয়েছে৷ আমরা টাস্কের সাথে প্রাসঙ্গিক 14 মিলিয়নেরও বেশি বিজ্ঞান বাক্যের একটি কর্পাস এবং এই ডেটাসেটের জন্য তিনটি নিউরাল বেসলাইন মডেলের একটি বাস্তবায়ন অন্তর্ভুক্ত করছি। আমরা ARC-কে সম্প্রদায়ের কাছে একটি চ্যালেঞ্জ হিসেবে তুলে ধরছি।

মূল ডেটাসেটের তুলনায়, এটি ইউনিফাইডকিউএর মতো একইভাবে তথ্য পুনরুদ্ধারের মাধ্যমে প্রাপ্ত প্রসঙ্গ বাক্য যোগ করে (দেখুন: https://arxiv.org/abs/2005.00700 )।

FeaturesDict({
    'answerKey': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'choices': Sequence({
        'label': ClassLabel(shape=(), dtype=int64, num_classes=5),
        'text': Text(shape=(), dtype=string),
    }),
    'id': Text(shape=(), dtype=string),
    'paragraph': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
উত্তরের চাবিকাঠি ক্লাসলেবেল int64
পছন্দ ক্রম
পছন্দ/লেবেল ক্লাসলেবেল int64
পছন্দ/পাঠ্য পাঠ্য স্ট্রিং
আইডি পাঠ্য স্ট্রিং
অনুচ্ছেদ পাঠ্য স্ট্রিং
প্রশ্ন পাঠ্য স্ট্রিং
  • তত্ত্বাবধান করা কী (দেখুন as_supervised doc ): None

  • চিত্র ( tfds.show_examples ): সমর্থিত নয়।

  • উদ্ধৃতি :

@article{allenai:arc,
      author    = {Peter Clark  and Isaac Cowhey and Oren Etzioni and Tushar Khot and
                    Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
      title     = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
      journal   = {arXiv:1803.05457v1},
      year      = {2018},
}
@article{2020unifiedqa,
    title={UnifiedQA: Crossing Format Boundaries With a Single QA System},
    author={D. Khashabi and S. Min and T. Khot and A. Sabhwaral and O. Tafjord and P. Clark and H. Hajishirzi},
    journal={arXiv preprint},
    year={2020}
}

ai2_arc_with_ir/ARC-চ্যালেঞ্জ-IR (ডিফল্ট কনফিগারেশন)

  • কনফিগারেশনের বিবরণ : 2590টি "কঠিন" প্রশ্নের চ্যালেঞ্জ সেট (যেগুলি পুনরুদ্ধার এবং একটি সহ-ঘটনা পদ্ধতি উভয়ই সঠিকভাবে উত্তর দিতে ব্যর্থ হয়)

  • ডেটাসেটের আকার : 3.76 MiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 1,172
'train' 1,119
'validation' 299

ai2_arc_with_ir/ARC-Easy-IR

  • কনফিগারেশনের বিবরণ : ARC চ্যালেঞ্জের জন্য 5197 টি প্রশ্নের সহজ সেট।

  • ডেটাসেটের আকার : 7.49 MiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' ২,৩৭৬
'train' 2,251
'validation' 570