- توضیحات :
مجموعه داده جدیدی از س،7الات علوم چند گزینه ای در سطح پایه 7،787 ، برای تشویق تحقیقات در پاسخ به سوالات پیشرفته ، جمع آوری شده است. این مجموعه داده به یک مجموعه چالش و یک مجموعه آسان تقسیم می شود ، در حالی که مورد اول فقط شامل س questionsالاتی است که هم توسط یک الگوریتم مبتنی بر بازیابی و هم از طریق الگوریتم هم افزایی کلمات پاسخ نادرستی داده شده است. ما همچنین شامل مجموعه ای از بیش از 14 میلیون جمله علمی مربوط به وظیفه و اجرای سه مدل پایه عصبی برای این مجموعه داده هستیم. ما ARC را به عنوان یک چالش برای جامعه در نظر می گیریم.
در مقایسه با مجموعه داده اصلی ، این جملات متنی را که از طریق بازیابی اطلاعات بدست آمده اند به همان روشی که UnifiedQA بدست آورده است ، اضافه می کند (نگاه کنید به: https://arxiv.org/abs/2005.00700 ).
صفحه اصلی : https://allenai.org/data/arc
کد منبع :
tfds.question_answering.Ai2ArcWithIR
نسخه ها :
-
1.0.0
(پیش فرض): بدون یادداشت انتشار.
-
حجم دانلود :
3.68 MiB
ذخیره خودکار ( مستندات ): بله
ویژگی ها :
FeaturesDict({
'answerKey': ClassLabel(shape=(), dtype=tf.int64, num_classes=5),
'choices': Sequence({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=5),
'text': Text(shape=(), dtype=tf.string),
}),
'id': Text(shape=(), dtype=tf.string),
'paragraph': Text(shape=(), dtype=tf.string),
'question': Text(shape=(), dtype=tf.string),
})
کلیدهای تحت نظارت (به
as_supervised
سند نظارت شده مراجعه کنید):None
نقل قول :
@article{allenai:arc,
author = {Peter Clark and Isaac Cowhey and Oren Etzioni and Tushar Khot and
Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
title = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
journal = {arXiv:1803.05457v1},
year = {2018},
}
@article{2020unifiedqa,
title={UnifiedQA: Crossing Format Boundaries With a Single QA System},
author={D. Khashabi and S. Min and T. Khot and A. Sabhwaral and O. Tafjord and P. Clark and H. Hajishirzi},
journal={arXiv preprint},
year={2020}
}
- شکل ( tfds.show_examples ): پشتیبانی نمی شود.
ai2_arc_with_ir / ARC-Challenge-IR (پیکربندی پیش فرض)
توضیحات پیکربندی : مجموعه چالشهای 2590 س "ال "سخت" (س thoseالاتی که هم روش بازیابی و هم روش اتفاقی نمی توانند به درستی پاسخ دهند)
اندازه مجموعه داده :
3.76 MiB
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 1،172 |
'train' | 1111 |
'validation' | 299 |
- مثالها ( tfds.as_dataframe ):
ai2_arc_with_ir / ARC-Easy-IR
شرح پیکربندی : مجموعه ای آسان از 5197 سوال برای ARC Challenge.
اندازه مجموعه داده :
7.49 MiB
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 2،376 |
'train' | 2،251 |
'validation' | 570 |
- مثالها ( tfds.as_dataframe ):