ai2_arc_with_ir

با مجموعه‌ها، منظم بمانید ذخیره و دسته‌بندی محتوا براساس اولویت‌های شما.

  • توضیحات :

مجموعه داده جدیدی از 7787 سؤال علمی چندگزینه ای واقعی در سطح پایه مدرسه، که برای تشویق به تحقیق در پاسخگویی پیشرفته به سؤالات جمع آوری شده است. مجموعه داده به یک مجموعه چالش و یک مجموعه آسان تقسیم می‌شود، که در آن اولی فقط شامل سؤالاتی است که توسط الگوریتم مبتنی بر بازیابی و الگوریتم هم‌روی کلمه به اشتباه پاسخ داده شده است. ما همچنین مجموعه‌ای از بیش از 14 میلیون جمله علمی مرتبط با این کار و پیاده‌سازی سه مدل پایه عصبی را برای این مجموعه داده گنجانده‌ایم. ما ARC را به عنوان یک چالش برای جامعه مطرح می کنیم.

در مقایسه با مجموعه داده اصلی، این جملات متنی را که از طریق بازیابی اطلاعات به دست می‌آیند به همان روش UnifiedQA اضافه می‌کند (نگاه کنید به: https://arxiv.org/abs/2005.00700 ).

FeaturesDict({
    'answerKey': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'choices': Sequence({
        'label': ClassLabel(shape=(), dtype=int64, num_classes=5),
        'text': Text(shape=(), dtype=string),
    }),
    'id': Text(shape=(), dtype=string),
    'paragraph': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
کلید پاسخ ClassLabel int64
انتخاب ها توالی
انتخاب/برچسب ClassLabel int64
انتخاب ها/متن متن رشته
شناسه متن رشته
پاراگراف متن رشته
سوال متن رشته
@article{allenai:arc,
      author    = {Peter Clark  and Isaac Cowhey and Oren Etzioni and Tushar Khot and
                    Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
      title     = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
      journal   = {arXiv:1803.05457v1},
      year      = {2018},
}
@article{2020unifiedqa,
    title={UnifiedQA: Crossing Format Boundaries With a Single QA System},
    author={D. Khashabi and S. Min and T. Khot and A. Sabhwaral and O. Tafjord and P. Clark and H. Hajishirzi},
    journal={arXiv preprint},
    year={2020}
}

ai2_arc_with_ir/ARC-Challenge-IR (پیکربندی پیش فرض)

  • توضیحات پیکربندی : مجموعه چالشی شامل 2590 سوال "سخت" (آنهایی که هم روش بازیابی و هم اتفاق نمی توانند به درستی به آنها پاسخ دهند)

  • حجم مجموعه داده : 3.76 MiB

  • تقسیمات :

شکاف مثال ها
'test' 1172
'train' 1119
'validation' 299

ai2_arc_with_ir/ARC-Easy-IR

  • توضیحات پیکربندی : مجموعه ای آسان از 5197 سوال برای چالش ARC.

  • حجم مجموعه داده : 7.49 MiB

  • تقسیمات :

شکاف مثال ها
'test' 2,376
'train' 2251
'validation' 570