unified_qa

  • الوصف :

يتكون معيار UnifiedQA من 20 مجموعة بيانات رئيسية للإجابة على الأسئلة (QA) (قد يكون لكل منها إصدارات متعددة) التي تستهدف تنسيقات مختلفة بالإضافة إلى العديد من الظواهر اللغوية المعقدة. يتم تجميع مجموعات البيانات هذه في عدة تنسيقات / فئات ، بما في ذلك: QA الاستخراجي ، و QA التجريدي ، و QA متعدد الخيارات ، و Yes / no QA. بالإضافة إلى ذلك ، تُستخدم مجموعات التباين للعديد من مجموعات البيانات (يُشار إليها بـ " مجموعات التباين"). مجموعات التقييم هذه عبارة عن اضطرابات أنشأها الخبراء والتي تنحرف عن الأنماط الشائعة في مجموعة البيانات الأصلية. بالنسبة للعديد من مجموعات البيانات التي لا تأتي مع فقرات الأدلة ، يتم تضمين متغيرين: أحدهما يستخدم مجموعات البيانات كما هي والآخر يستخدم الفقرات التي تم جلبها عبر نظام استرجاع المعلومات كدليل إضافي ، يشار إليه بعلامات "_ir".

يمكن العثور على مزيد من المعلومات على: https://github.com/allenai/unifiedqa

FeaturesDict({
    'input': string,
    'output': string,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
الإدخال موتر سلسلة
انتاج موتر سلسلة

unified_qa / ai2_science_elementary (التكوين الافتراضي)

  • وصف التكوين : تتكون مجموعة بيانات الأسئلة العلمية AI2 من الأسئلة المستخدمة في تقييمات الطلاب في الولايات المتحدة عبر مستويات الصفوف الابتدائية والمتوسطة. كل سؤال عبارة عن تنسيق متعدد الخيارات رباعي الاتجاهات وقد يتضمن أو لا يتضمن عنصر مخطط. تتكون هذه المجموعة من الأسئلة المستخدمة لمستويات الصف الابتدائي.

  • حجم التحميل : 345.59 KiB

  • حجم مجموعة البيانات : 390.02 KiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 542
'train' 623
'validation' 123
  • الاقتباس :
http://data.allenai.org/ai2-science-questions

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / ai2_science_middle

  • وصف التكوين : تتكون مجموعة بيانات الأسئلة العلمية AI2 من الأسئلة المستخدمة في تقييمات الطلاب في الولايات المتحدة عبر مستويات الصفوف الابتدائية والمتوسطة. كل سؤال عبارة عن تنسيق متعدد الخيارات رباعي الاتجاهات وقد يتضمن أو لا يتضمن عنصر مخطط. تتكون هذه المجموعة من الأسئلة المستخدمة لمستويات الصفوف المتوسطة.

  • حجم التحميل : 428.41 KiB

  • حجم مجموعة البيانات : 477.40 KiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 679
'train' 605
'validation' 125
  • الاقتباس :
http://data.allenai.org/ai2-science-questions

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / الغمضة

  • وصف التكوين : AmbigQA عبارة عن مهمة تجيب على سؤال مفتوح المجال تتضمن إيجاد كل إجابة معقولة ، ثم إعادة كتابة السؤال لكل سؤال لحل الغموض.

  • حجم التحميل : 2.27 MiB

  • حجم مجموعة البيانات : 3.04 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 19806
'validation' 5674
  • الاقتباس :
@inproceedings{min-etal-2020-ambigqa,
    title = "{A}mbig{QA}: Answering Ambiguous Open-domain Questions",
    author = "Min, Sewon  and
      Michael, Julian  and
      Hajishirzi, Hannaneh  and
      Zettlemoyer, Luke",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.emnlp-main.466",
    doi = "10.18653/v1/2020.emnlp-main.466",
    pages = "5783--5797",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / arc_easy

  • وصف التكوين : تتكون مجموعة البيانات هذه من أسئلة علمية متعددة الخيارات على مستوى المدرسة الابتدائية ، تم تجميعها لتشجيع البحث في الإجابة على الأسئلة المتقدمة. يتم تقسيم مجموعة البيانات إلى مجموعة تحديات ومجموعة سهلة ، حيث تحتوي الأولى على أسئلة تمت الإجابة عليها بشكل غير صحيح عن طريق كل من خوارزمية قائمة على الاسترداد وخوارزمية التكرار المشترك للكلمات. تتكون هذه المجموعة من أسئلة "سهلة".

  • حجم التحميل : 1.24 MiB

  • حجم مجموعة البيانات : 1.42 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 2،376
'train' 2،251
'validation' 570
  • الاقتباس :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / arc_easy_dev

  • وصف التكوين : تتكون مجموعة البيانات هذه من أسئلة علمية متعددة الخيارات على مستوى المدرسة الابتدائية ، تم تجميعها لتشجيع البحث في الإجابة على الأسئلة المتقدمة. يتم تقسيم مجموعة البيانات إلى مجموعة تحديات ومجموعة سهلة ، حيث تحتوي الأولى على أسئلة تمت الإجابة عليها بشكل غير صحيح عن طريق كل من خوارزمية قائمة على الاسترداد وخوارزمية التكرار المشترك للكلمات. تتكون هذه المجموعة من أسئلة "سهلة".

  • حجم التحميل : 1.24 MiB

  • حجم مجموعة البيانات : 1.42 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 2،376
'train' 2،251
'validation' 570
  • الاقتباس :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / arc_easy_with_ir

  • وصف التكوين : تتكون مجموعة البيانات هذه من أسئلة علمية متعددة الخيارات على مستوى المدرسة الابتدائية ، تم تجميعها لتشجيع البحث في الإجابة على الأسئلة المتقدمة. يتم تقسيم مجموعة البيانات إلى مجموعة تحديات ومجموعة سهلة ، حيث تحتوي الأولى على أسئلة تمت الإجابة عليها بشكل غير صحيح عن طريق كل من خوارزمية قائمة على الاسترداد وخوارزمية التكرار المشترك للكلمات. تتكون هذه المجموعة من أسئلة "سهلة". تتضمن هذه النسخة فقرات تم جلبها عبر نظام استرجاع المعلومات كدليل إضافي.

  • حجم التحميل : 7.00 MiB

  • حجم مجموعة البيانات : 7.17 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 2،376
'train' 2،251
'validation' 570
  • الاقتباس :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / arc_easy_with_ir_dev

  • وصف التكوين : تتكون مجموعة البيانات هذه من أسئلة علمية متعددة الخيارات على مستوى المدرسة الابتدائية ، تم تجميعها لتشجيع البحث في الإجابة على الأسئلة المتقدمة. يتم تقسيم مجموعة البيانات إلى مجموعة تحديات ومجموعة سهلة ، حيث تحتوي الأولى على أسئلة تمت الإجابة عليها بشكل غير صحيح عن طريق كل من خوارزمية قائمة على الاسترداد وخوارزمية التكرار المشترك للكلمات. تتكون هذه المجموعة من أسئلة "سهلة". تتضمن هذه النسخة فقرات تم جلبها عبر نظام استرجاع المعلومات كدليل إضافي.

  • حجم التحميل : 7.00 MiB

  • حجم مجموعة البيانات : 7.17 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 2،376
'train' 2،251
'validation' 570
  • الاقتباس :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / arc_hard

  • وصف التكوين : تتكون مجموعة البيانات هذه من أسئلة علمية متعددة الخيارات على مستوى المدرسة الابتدائية ، تم تجميعها لتشجيع البحث في الإجابة على الأسئلة المتقدمة. يتم تقسيم مجموعة البيانات إلى مجموعة تحديات ومجموعة سهلة ، حيث تحتوي الأولى على أسئلة تمت الإجابة عليها بشكل غير صحيح عن طريق كل من خوارزمية قائمة على الاسترداد وخوارزمية التكرار المشترك للكلمات. تتكون هذه المجموعة من أسئلة "صعبة".

  • حجم التحميل : 758.03 KiB

  • حجم مجموعة البيانات : 848.28 KiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 1،172
'train' 1119
'validation' 299
  • الاقتباس :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / arc_hard_dev

  • وصف التكوين : تتكون مجموعة البيانات هذه من أسئلة علمية متعددة الخيارات على مستوى المدرسة الابتدائية ، تم تجميعها لتشجيع البحث في الإجابة على الأسئلة المتقدمة. يتم تقسيم مجموعة البيانات إلى مجموعة تحديات ومجموعة سهلة ، حيث تحتوي الأولى على أسئلة تمت الإجابة عليها بشكل غير صحيح عن طريق كل من خوارزمية قائمة على الاسترداد وخوارزمية التكرار المشترك للكلمات. تتكون هذه المجموعة من أسئلة "صعبة".

  • حجم التحميل : 758.03 KiB

  • حجم مجموعة البيانات : 848.28 KiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 1،172
'train' 1119
'validation' 299
  • الاقتباس :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / arc_hard_with_ir

  • وصف التكوين : تتكون مجموعة البيانات هذه من أسئلة علمية متعددة الخيارات على مستوى المدرسة الابتدائية ، تم تجميعها لتشجيع البحث في الإجابة على الأسئلة المتقدمة. يتم تقسيم مجموعة البيانات إلى مجموعة تحديات ومجموعة سهلة ، حيث تحتوي الأولى على أسئلة تمت الإجابة عليها بشكل غير صحيح عن طريق كل من خوارزمية قائمة على الاسترداد وخوارزمية التكرار المشترك للكلمات. تتكون هذه المجموعة من أسئلة "صعبة". تتضمن هذه النسخة فقرات تم جلبها عبر نظام استرجاع المعلومات كدليل إضافي.

  • حجم التحميل : 3.53 MiB

  • حجم مجموعة البيانات : 3.62 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 1،172
'train' 1119
'validation' 299
  • الاقتباس :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / arc_hard_with_ir_dev

  • وصف التكوين : تتكون مجموعة البيانات هذه من أسئلة علمية متعددة الخيارات على مستوى المدرسة الابتدائية ، تم تجميعها لتشجيع البحث في الإجابة على الأسئلة المتقدمة. يتم تقسيم مجموعة البيانات إلى مجموعة تحديات ومجموعة سهلة ، حيث تحتوي الأولى على أسئلة تمت الإجابة عليها بشكل غير صحيح عن طريق كل من خوارزمية قائمة على الاسترداد وخوارزمية التكرار المشترك للكلمات. تتكون هذه المجموعة من أسئلة "صعبة". تتضمن هذه النسخة فقرات تم جلبها عبر نظام استرجاع المعلومات كدليل إضافي.

  • حجم التحميل : 3.53 MiB

  • حجم مجموعة البيانات : 3.62 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 1،172
'train' 1119
'validation' 299
  • الاقتباس :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / boolq

  • وصف التكوين : BoolQ هو سؤال يجيب على مجموعة بيانات لأسئلة نعم / لا. هذه الأسئلة تحدث بشكل طبيعي - يتم إنشاؤها في إعدادات غير مقيدة وغير مقيدة. كل مثال عبارة عن مجموعة ثلاثية من (سؤال ، فقرة ، إجابة) ، مع عنوان الصفحة كسياق إضافي اختياري. يشبه إعداد تصنيف أزواج النص مهام استدلال اللغة الطبيعية الحالية.

  • حجم التحميل : 7.77 MiB

  • حجم مجموعة البيانات : 8.20 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 9427
'validation' 3270
  • الاقتباس :
@inproceedings{clark-etal-2019-boolq,
    title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
    author = "Clark, Christopher  and
      Lee, Kenton  and
      Chang, Ming-Wei  and
      Kwiatkowski, Tom  and
      Collins, Michael  and
      Toutanova, Kristina",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1300",
    doi = "10.18653/v1/N19-1300",
    pages = "2924--2936",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / boolq_np

  • وصف التكوين : BoolQ هو سؤال يجيب على مجموعة بيانات لأسئلة نعم / لا. هذه الأسئلة تحدث بشكل طبيعي - يتم إنشاؤها في إعدادات غير مقيدة وغير مقيدة. كل مثال عبارة عن مجموعة ثلاثية من (سؤال ، فقرة ، إجابة) ، مع عنوان الصفحة كسياق إضافي اختياري. يشبه إعداد تصنيف أزواج النص مهام استدلال اللغة الطبيعية الحالية. يضيف هذا الإصدار اضطرابات طبيعية إلى الإصدار الأصلي.

  • حجم التحميل : 10.80 MiB

  • حجم مجموعة البيانات : 11.40 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 9727
'validation' 7596
  • الاقتباس :
@inproceedings{khashabi-etal-2020-bang,
    title = "More Bang for Your Buck: Natural Perturbation for Robust Question Answering",
    author = "Khashabi, Daniel  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.emnlp-main.12",
    doi = "10.18653/v1/2020.emnlp-main.12",
    pages = "163--170",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / commonsenseqa

  • وصف التكوين : CommonsenseQA هو سؤال متعدد الخيارات يجيب على مجموعة البيانات التي تتطلب أنواعًا مختلفة من المعرفة المنطقية للتنبؤ بالإجابات الصحيحة. يحتوي على أسئلة بإجابة واحدة صحيحة وأربع إجابات مشتتة.

  • حجم التحميل : 1.79 MiB

  • حجم مجموعة البيانات : 2.19 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 1140
'train' 9741
'validation' 1،221
  • الاقتباس :
@inproceedings{talmor-etal-2019-commonsenseqa,
    title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
    author = "Talmor, Alon  and
      Herzig, Jonathan  and
      Lourie, Nicholas  and
      Berant, Jonathan",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1421",
    doi = "10.18653/v1/N19-1421",
    pages = "4149--4158",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / commonsenseqa_test

  • وصف التكوين : CommonsenseQA هو سؤال متعدد الخيارات يجيب على مجموعة البيانات التي تتطلب أنواعًا مختلفة من المعرفة المنطقية للتنبؤ بالإجابات الصحيحة. يحتوي على أسئلة بإجابة واحدة صحيحة وأربع إجابات مشتتة.

  • حجم التحميل : 1.79 MiB

  • حجم مجموعة البيانات : 2.19 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 1140
'train' 9741
'validation' 1،221
  • الاقتباس :
@inproceedings{talmor-etal-2019-commonsenseqa,
    title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
    author = "Talmor, Alon  and
      Herzig, Jonathan  and
      Lourie, Nicholas  and
      Berant, Jonathan",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1421",
    doi = "10.18653/v1/N19-1421",
    pages = "4149--4158",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / التباين_مجموعات_البولق

  • وصف التكوين : BoolQ هو سؤال يجيب على مجموعة بيانات لأسئلة نعم / لا. هذه الأسئلة تحدث بشكل طبيعي - يتم إنشاؤها في إعدادات غير مقيدة وغير مقيدة. كل مثال عبارة عن مجموعة ثلاثية من (سؤال ، فقرة ، إجابة) ، مع عنوان الصفحة كسياق إضافي اختياري. يشبه إعداد تصنيف أزواج النص مهام استدلال اللغة الطبيعية الحالية. يستخدم هذا الإصدار مجموعات التباين. مجموعات التقييم هذه عبارة عن اضطرابات أنشأها الخبراء والتي تنحرف عن الأنماط الشائعة في مجموعة البيانات الأصلية.

  • حجم التحميل : 438.51 KiB

  • حجم مجموعة البيانات : 462.35 KiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 340
'validation' 340
  • الاقتباس :
@inproceedings{clark-etal-2019-boolq,
    title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
    author = "Clark, Christopher  and
      Lee, Kenton  and
      Chang, Ming-Wei  and
      Kwiatkowski, Tom  and
      Collins, Michael  and
      Toutanova, Kristina",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1300",
    doi = "10.18653/v1/N19-1300",
    pages = "2924--2936",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / التباين_مجموعات_drop

  • وصف التكوين : DROP عبارة عن معيار مرجعي لضمان الجودة يتم تعهيده عن طريق التعهيد الجماعي ، حيث يجب على النظام حل المراجع في سؤال ما ، ربما إلى مواقع إدخال متعددة ، وإجراء عمليات منفصلة عليها (مثل الإضافة أو العد أو الفرز). تتطلب هذه العمليات فهمًا أكثر شمولاً لمحتوى الفقرات مما كان ضروريًا لمجموعات البيانات السابقة. يستخدم هذا الإصدار مجموعات التباين. مجموعات التقييم هذه عبارة عن اضطرابات أنشأها الخبراء والتي تنحرف عن الأنماط الشائعة في مجموعة البيانات الأصلية.

  • حجم التحميل : 2.20 MiB

  • حجم مجموعة البيانات : 2.26 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 947
'validation' 947
  • الاقتباس :
@inproceedings{dua-etal-2019-drop,
    title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
    author = "Dua, Dheeru  and
      Wang, Yizhong  and
      Dasigi, Pradeep  and
      Stanovsky, Gabriel  and
      Singh, Sameer  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1246",
    doi = "10.18653/v1/N19-1246",
    pages = "2368--2378",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / مجموعات التباين_ quoref

  • وصف التكوين : تختبر مجموعة البيانات هذه القدرة على التفكير المرجعي لأنظمة فهم القراءة. في هذا المعيار المعياري لتحديد الامتداد الذي يحتوي على أسئلة فوق فقرات من ويكيبيديا ، يجب على النظام حل المراجع الصلبة قبل تحديد الامتداد (النطاقات) المناسبة في الفقرات للإجابة على الأسئلة. يستخدم هذا الإصدار مجموعات التباين. مجموعات التقييم هذه عبارة عن اضطرابات أنشأها الخبراء والتي تنحرف عن الأنماط الشائعة في مجموعة البيانات الأصلية.

  • حجم التحميل : 2.60 MiB

  • حجم مجموعة البيانات : 2.65 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 700
'validation' 700
  • الاقتباس :
@inproceedings{dasigi-etal-2019-quoref,
    title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
    author = "Dasigi, Pradeep  and
      Liu, Nelson F.  and
      Marasovi{'c}, Ana  and
      Smith, Noah A.  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1606",
    doi = "10.18653/v1/D19-1606",
    pages = "5925--5932",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / التباين_مجموعات_ropes

  • وصف التكوين : تختبر مجموعة البيانات هذه قدرة النظام على تطبيق المعرفة من مرور النص إلى حالة جديدة. يتم تقديم فقرة خلفية للنظام تحتوي على علاقة (علاقات) سببية أو نوعية (على سبيل المثال ، "الملقحات الحيوانية تزيد من كفاءة الإخصاب في الأزهار") ، وهي حالة جديدة تستخدم هذه الخلفية ، والأسئلة التي تتطلب التفكير حول تأثيرات العلاقات في فقرة الخلفية في سياق الموقف. يستخدم هذا الإصدار مجموعات التباين. مجموعات التقييم هذه عبارة عن اضطرابات أنشأها الخبراء والتي تنحرف عن الأنماط الشائعة في مجموعة البيانات الأصلية.

  • حجم التحميل : 1.97 MiB

  • حجم مجموعة البيانات : 2.04 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 974
'validation' 974
  • الاقتباس :
@inproceedings{lin-etal-2019-reasoning,
    title = "Reasoning Over Paragraph Effects in Situations",
    author = "Lin, Kevin  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5808",
    doi = "10.18653/v1/D19-5808",
    pages = "58--62",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / قطرة

  • وصف التكوين : DROP عبارة عن معيار مرجعي لضمان الجودة يتم تعهيده عن طريق التعهيد الجماعي ، حيث يجب على النظام حل المراجع في سؤال ما ، ربما إلى مواقع إدخال متعددة ، وإجراء عمليات منفصلة عليها (مثل الإضافة أو العد أو الفرز). تتطلب هذه العمليات فهمًا أكثر شمولاً لمحتوى الفقرات مما كان ضروريًا لمجموعات البيانات السابقة.

  • حجم التحميل : 105.18 MiB

  • حجم مجموعة البيانات : 108.16 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 77399
'validation' 9536
  • الاقتباس :
@inproceedings{dua-etal-2019-drop,
    title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
    author = "Dua, Dheeru  and
      Wang, Yizhong  and
      Dasigi, Pradeep  and
      Stanovsky, Gabriel  and
      Singh, Sameer  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1246",
    doi = "10.18653/v1/N19-1246",
    pages = "2368--2378",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / mctest

  • وصف التكوين : يتطلب MCTest أن تجيب الآلات على أسئلة الفهم القرائي متعددة الاختيارات حول القصص الخيالية ، وتعالج بشكل مباشر الهدف رفيع المستوى لفهم الآلة في المجال المفتوح. يمكن أن يختبر الفهم القرائي القدرات المتقدمة مثل التفكير السببي وفهم العالم ، ومع ذلك ، من خلال كونه متعدد الاختيارات ، لا يزال يوفر مقياسًا واضحًا. من خلال كونها خيالية ، يمكن العثور على الإجابة عادة في القصة نفسها فقط. تقتصر القصص والأسئلة بعناية أيضًا على تلك التي يفهمها الطفل الصغير ، مما يقلل من المعرفة العالمية المطلوبة للمهمة.

  • حجم التحميل : 2.14 MiB

  • حجم مجموعة البيانات : 2.20 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 1480
'validation' 320
  • الاقتباس :
@inproceedings{richardson-etal-2013-mctest,
    title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
    author = "Richardson, Matthew  and
      Burges, Christopher J.C.  and
      Renshaw, Erin",
    booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
    month = oct,
    year = "2013",
    address = "Seattle, Washington, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D13-1020",
    pages = "193--203",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / mctest_corrected_the_separator

  • وصف التكوين : يتطلب MCTest أن تجيب الآلات على أسئلة الفهم القرائي متعددة الاختيارات حول القصص الخيالية ، وتعالج بشكل مباشر الهدف رفيع المستوى لفهم الآلة في المجال المفتوح. يمكن أن يختبر الفهم القرائي القدرات المتقدمة مثل التفكير السببي وفهم العالم ، ومع ذلك ، من خلال كونه متعدد الاختيارات ، لا يزال يوفر مقياسًا واضحًا. من خلال كونها خيالية ، يمكن العثور على الإجابة عادة في القصة نفسها فقط. تقتصر القصص والأسئلة بعناية أيضًا على تلك التي يفهمها الطفل الصغير ، مما يقلل من المعرفة العالمية المطلوبة للمهمة.

  • حجم التحميل : 2.15 MiB

  • حجم مجموعة البيانات : 2.21 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 1480
'validation' 320
  • الاقتباس :
@inproceedings{richardson-etal-2013-mctest,
    title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
    author = "Richardson, Matthew  and
      Burges, Christopher J.C.  and
      Renshaw, Erin",
    booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
    month = oct,
    year = "2013",
    address = "Seattle, Washington, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D13-1020",
    pages = "193--203",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / مولتيرك

  • وصف التكوين : يعد MultiRC تحديًا لفهم القراءة حيث لا يمكن الإجابة على الأسئلة إلا من خلال مراعاة المعلومات المأخوذة من جمل متعددة. تم التماس أسئلة وأجوبة لهذا التحدي والتحقق منها من خلال تجربة التعهيد الجماعي المكونة من 4 خطوات. تحتوي مجموعة البيانات على أسئلة للفقرات عبر 7 مجالات مختلفة (علوم المدرسة الابتدائية ، والأخبار ، وأدلة السفر ، والقصص الخيالية ، وما إلى ذلك) مما يجلب التنوع اللغوي إلى النصوص وصياغة الأسئلة.

  • حجم التحميل : 897.09 KiB

  • حجم مجموعة البيانات : 918.42 KiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 312
'validation' 312
  • الاقتباس :
@inproceedings{khashabi-etal-2018-looking,
    title = "Looking Beyond the Surface: A Challenge Set for Reading Comprehension over Multiple Sentences",
    author = "Khashabi, Daniel  and
      Chaturvedi, Snigdha  and
      Roth, Michael  and
      Upadhyay, Shyam  and
      Roth, Dan",
    booktitle = "Proceedings of the 2018 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)",
    month = jun,
    year = "2018",
    address = "New Orleans, Louisiana",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N18-1023",
    doi = "10.18653/v1/N18-1023",
    pages = "252--262",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / narrativeqa

  • وصف التكوين : NarrativeQA عبارة عن مجموعة بيانات باللغة الإنجليزية - lanaguage من القصص والأسئلة المقابلة المصممة لاختبار فهم القراءة ، خاصة في المستندات الطويلة.

  • حجم التحميل : 308.28 MiB

  • حجم مجموعة البيانات : 311.22 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 21114
'train' 65494
'validation' 6922
  • الاقتباس :
@article{kocisky-etal-2018-narrativeqa,
    title = "The {N}arrative{QA} Reading Comprehension Challenge",
    author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} }  and
      Schwarz, Jonathan  and
      Blunsom, Phil  and
      Dyer, Chris  and
      Hermann, Karl Moritz  and
      Melis, G{'a}bor  and
      Grefenstette, Edward",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "6",
    year = "2018",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q18-1023",
    doi = "10.1162/tacl_a_00023",
    pages = "317--328",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / narrativeqa_dev

  • وصف التكوين : NarrativeQA عبارة عن مجموعة بيانات باللغة الإنجليزية - lanaguage من القصص والأسئلة المقابلة المصممة لاختبار فهم القراءة ، خاصة في المستندات الطويلة.

  • حجم التحميل : 308.28 MiB

  • حجم مجموعة البيانات : 311.22 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 21114
'train' 65494
'validation' 6922
  • الاقتباس :
@article{kocisky-etal-2018-narrativeqa,
    title = "The {N}arrative{QA} Reading Comprehension Challenge",
    author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} }  and
      Schwarz, Jonathan  and
      Blunsom, Phil  and
      Dyer, Chris  and
      Hermann, Karl Moritz  and
      Melis, G{'a}bor  and
      Grefenstette, Edward",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "6",
    year = "2018",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q18-1023",
    doi = "10.1162/tacl_a_00023",
    pages = "317--328",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / الأسئلة الطبيعية

  • وصف التكوين : تحتوي مجموعة NQ على أسئلة من مستخدمين حقيقيين ، وتتطلب من أنظمة ضمان الجودة قراءة وفهم مقالة Wikipedia كاملة قد تحتوي أو لا تحتوي على إجابة على السؤال. يؤدي تضمين أسئلة المستخدم الحقيقي ، ومتطلبات الحلول التي يجب أن تقرأ صفحة كاملة للعثور على الإجابة ، إلى جعل NQ مهمة أكثر واقعية وتحديًا من مجموعات بيانات ضمان الجودة السابقة.

  • حجم التحميل : 6.95 MiB

  • حجم مجموعة البيانات : 9.88 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 96.075
'validation' 2،295
  • الاقتباس :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / natural_questions_direct_ans

  • وصف التكوين : تحتوي مجموعة NQ على أسئلة من مستخدمين حقيقيين ، وتتطلب من أنظمة ضمان الجودة قراءة وفهم مقالة Wikipedia كاملة قد تحتوي أو لا تحتوي على إجابة على السؤال. يؤدي تضمين أسئلة المستخدم الحقيقي ، ومتطلبات الحلول التي يجب أن تقرأ صفحة كاملة للعثور على الإجابة ، إلى جعل NQ مهمة أكثر واقعية وتحديًا من مجموعات بيانات ضمان الجودة السابقة. يتكون هذا الإصدار من أسئلة الإجابة المباشرة.

  • حجم التحميل : 6.82 MiB

  • حجم مجموعة البيانات : 10.19 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 6468
'train' 96676
'validation' 10693
  • الاقتباس :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / natural_questions_direct_ans_test

  • وصف التكوين : تحتوي مجموعة NQ على أسئلة من مستخدمين حقيقيين ، وتتطلب من أنظمة ضمان الجودة قراءة وفهم مقالة Wikipedia كاملة قد تحتوي أو لا تحتوي على إجابة على السؤال. يؤدي تضمين أسئلة المستخدم الحقيقي ، ومتطلبات الحلول التي يجب أن تقرأ صفحة كاملة للعثور على الإجابة ، إلى جعل NQ مهمة أكثر واقعية وتحديًا من مجموعات بيانات ضمان الجودة السابقة. يتكون هذا الإصدار من أسئلة الإجابة المباشرة.

  • حجم التحميل : 6.82 MiB

  • حجم مجموعة البيانات : 10.19 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 6468
'train' 96676
'validation' 10693
  • الاقتباس :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / natural_questions_with_dpr_para

  • وصف التكوين : تحتوي مجموعة NQ على أسئلة من مستخدمين حقيقيين ، وتتطلب من أنظمة ضمان الجودة قراءة وفهم مقالة Wikipedia كاملة قد تحتوي أو لا تحتوي على إجابة على السؤال. يؤدي تضمين أسئلة المستخدم الحقيقي ، ومتطلبات الحلول التي يجب أن تقرأ صفحة كاملة للعثور على الإجابة ، إلى جعل NQ مهمة أكثر واقعية وتحديًا من مجموعات بيانات ضمان الجودة السابقة. يتضمن هذا الإصدار فقرات إضافية (تم الحصول عليها باستخدام محرك استرجاع DPR) لزيادة كل سؤال.

  • حجم التحميل : 319.22 MiB

  • حجم مجموعة البيانات : 322.91 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 96676
'validation' 10693
  • الاقتباس :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / natural_questions_with_dpr_para_test

  • وصف التكوين : تحتوي مجموعة NQ على أسئلة من مستخدمين حقيقيين ، وتتطلب من أنظمة ضمان الجودة قراءة وفهم مقالة Wikipedia كاملة قد تحتوي أو لا تحتوي على إجابة على السؤال. يؤدي تضمين أسئلة المستخدم الحقيقي ، ومتطلبات الحلول التي يجب أن تقرأ صفحة كاملة للعثور على الإجابة ، إلى جعل NQ مهمة أكثر واقعية وتحديًا من مجموعات بيانات ضمان الجودة السابقة. يتضمن هذا الإصدار فقرات إضافية (تم الحصول عليها باستخدام محرك استرجاع DPR) لزيادة كل سؤال.

  • حجم التحميل : 306.94 MiB

  • حجم مجموعة البيانات : 310.48 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 6468
'train' 96676
  • الاقتباس :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / newsqa

  • وصف التكوين : NewsQA عبارة عن مجموعة بيانات صعبة لفهم الآلة لأزواج من أسئلة وأجوبة من صنع الإنسان. يوفر Crowdworkers أسئلة وأجوبة بناءً على مجموعة من المقالات الإخبارية من CNN ، مع إجابات تتكون من مسافات نصية من المقالات المقابلة.

  • حجم التحميل : 283.33 MiB

  • حجم مجموعة البيانات : 285.94 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 75882
'validation' 4309
  • الاقتباس :
@inproceedings{trischler-etal-2017-newsqa,
    title = "{N}ews{QA}: A Machine Comprehension Dataset",
    author = "Trischler, Adam  and
      Wang, Tong  and
      Yuan, Xingdi  and
      Harris, Justin  and
      Sordoni, Alessandro  and
      Bachman, Philip  and
      Suleman, Kaheer",
    booktitle = "Proceedings of the 2nd Workshop on Representation Learning for {NLP}",
    month = aug,
    year = "2017",
    address = "Vancouver, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/W17-2623",
    doi = "10.18653/v1/W17-2623",
    pages = "191--200",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / openbookqa

  • وصف التكوين : يهدف OpenBookQA إلى تعزيز البحث في الإجابة المتقدمة عن الأسئلة ، والتحقيق في فهم أعمق لكل من الموضوع (مع الحقائق البارزة الملخصة في شكل كتاب مفتوح ، ومزودة أيضًا بمجموعة البيانات) واللغة التي يتم التعبير عنها بها. يحتوي على أسئلة تتطلب تفكيرًا متعدد الخطوات ، واستخدام معرفة إضافية عامة ومنطقية ، وفهم النص الغني. OpenBookQA هو نوع جديد من مجموعات البيانات التي تجيب على الأسئلة والتي تم تصميمها على غرار اختبارات الكتاب المفتوح لتقييم الفهم البشري للموضوع.

  • حجم التحميل : 942.34 KiB

  • حجم مجموعة البيانات : 1.11 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 500
'train' 4،957
'validation' 500
  • الاقتباس :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / openbookqa_dev

  • وصف التكوين : يهدف OpenBookQA إلى تعزيز البحث في الإجابة المتقدمة عن الأسئلة ، والتحقيق في فهم أعمق لكل من الموضوع (مع الحقائق البارزة الملخصة في شكل كتاب مفتوح ، ومزودة أيضًا بمجموعة البيانات) واللغة التي يتم التعبير عنها بها. يحتوي على أسئلة تتطلب تفكيرًا متعدد الخطوات ، واستخدام معرفة إضافية عامة ومنطقية ، وفهم النص الغني. OpenBookQA هو نوع جديد من مجموعات البيانات التي تجيب على الأسئلة والتي تم تصميمها على غرار اختبارات الكتاب المفتوح لتقييم الفهم البشري للموضوع.

  • حجم التحميل : 942.34 KiB

  • حجم مجموعة البيانات : 1.11 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 500
'train' 4،957
'validation' 500
  • الاقتباس :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / openbookqa_with_ir

  • وصف التكوين : يهدف OpenBookQA إلى تعزيز البحث في الإجابة المتقدمة عن الأسئلة ، والتحقيق في فهم أعمق لكل من الموضوع (مع الحقائق البارزة الملخصة في شكل كتاب مفتوح ، ومزودة أيضًا بمجموعة البيانات) واللغة التي يتم التعبير عنها بها. يحتوي على أسئلة تتطلب تفكيرًا متعدد الخطوات ، واستخدام معرفة إضافية عامة ومنطقية ، وفهم النص الغني. OpenBookQA هو نوع جديد من مجموعات البيانات التي تجيب على الأسئلة والتي تم تصميمها على غرار اختبارات الكتاب المفتوح لتقييم الفهم البشري للموضوع. تتضمن هذه النسخة فقرات تم جلبها عبر نظام استرجاع المعلومات كدليل إضافي.

  • حجم التحميل : 6.08 MiB

  • حجم مجموعة البيانات : 6.28 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 500
'train' 4،957
'validation' 500
  • الاقتباس :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / openbookqa_with_ir_dev

  • وصف التكوين : يهدف OpenBookQA إلى تعزيز البحث في الإجابة المتقدمة عن الأسئلة ، والتحقيق في فهم أعمق لكل من الموضوع (مع الحقائق البارزة الملخصة في شكل كتاب مفتوح ، ومزودة أيضًا بمجموعة البيانات) واللغة التي يتم التعبير عنها بها. يحتوي على أسئلة تتطلب تفكيرًا متعدد الخطوات ، واستخدام معرفة إضافية عامة ومنطقية ، وفهم النص الغني. OpenBookQA هو نوع جديد من مجموعات البيانات التي تجيب على الأسئلة والتي تم تصميمها على غرار اختبارات الكتاب المفتوح لتقييم الفهم البشري للموضوع. تتضمن هذه النسخة فقرات تم جلبها عبر نظام استرجاع المعلومات كدليل إضافي.

  • حجم التحميل : 6.08 MiB

  • حجم مجموعة البيانات : 6.28 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 500
'train' 4،957
'validation' 500
  • الاقتباس :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / phys_iqa

  • وصف التكوين : هذه مجموعة بيانات لقياس التقدم في الفهم المادي المنطقي. المهمة الأساسية هي الإجابة على أسئلة الاختيار من متعدد: بالنظر إلى السؤال q والحلين المحتملين s1 أو s2 ، يجب أن يختار النموذج أو الإنسان الحل الأنسب ، والذي يكون أحدهما صحيحًا بالضبط. تركز مجموعة البيانات على المواقف اليومية مع تفضيل الحلول غير النمطية. مجموعة البيانات مستوحاة من موقع Instructables.com ، الذي يزود المستخدمين بإرشادات حول كيفية إنشاء الكائنات أو صنعها أو خبزها أو معالجتها باستخدام المواد اليومية. يُطلب من المعلقين تقديم الاضطرابات الدلالية أو المناهج البديلة التي تكون بخلاف ذلك متشابهة من الناحية التركيبية والموضوعية لضمان استهداف المعرفة المادية. يتم تنظيف مجموعة البيانات بشكل أكبر من القطع الأثرية الأساسية باستخدام خوارزمية AFLite.

  • حجم التحميل : 6.01 MiB

  • حجم مجموعة البيانات : 6.59 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 16113
'validation' 1،838
  • الاقتباس :
@inproceedings{bisk2020piqa,
    title={Piqa: Reasoning about physical commonsense in natural language},
    author={Bisk, Yonatan and Zellers, Rowan and Gao, Jianfeng and Choi, Yejin and others},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={7432--7439},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / qasc

  • وصف التكوين : QASC عبارة عن مجموعة بيانات للإجابة على الأسئلة مع التركيز على تكوين الجملة. يتكون من 8 أسئلة متعددة الخيارات حول علوم المدرسة الابتدائية ، ويأتي مع مجموعة من 17 مليون جملة.

  • حجم التحميل : 1.75 MiB

  • حجم مجموعة البيانات : 2.09 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 920
'train' 8134
'validation' 926
  • الاقتباس :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / qasc_test

  • وصف التكوين : QASC عبارة عن مجموعة بيانات للإجابة على الأسئلة مع التركيز على تكوين الجملة. يتكون من 8 أسئلة متعددة الخيارات حول علوم المدرسة الابتدائية ، ويأتي مع مجموعة من 17 مليون جملة.

  • حجم التحميل : 1.75 MiB

  • حجم مجموعة البيانات : 2.09 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 920
'train' 8134
'validation' 926
  • الاقتباس :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / qasc_with_ir

  • وصف التكوين : QASC عبارة عن مجموعة بيانات للإجابة على الأسئلة مع التركيز على تكوين الجملة. يتكون من 8 أسئلة متعددة الخيارات حول علوم المدرسة الابتدائية ، ويأتي مع مجموعة من 17 مليون جملة. تتضمن هذه النسخة فقرات تم جلبها عبر نظام استرجاع المعلومات كدليل إضافي.

  • حجم التحميل : 16.95 MiB

  • حجم مجموعة البيانات : 17.30 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 920
'train' 8134
'validation' 926
  • الاقتباس :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / qasc_with_ir_test

  • وصف التكوين : QASC عبارة عن مجموعة بيانات للإجابة على الأسئلة مع التركيز على تكوين الجملة. يتكون من 8 أسئلة متعددة الخيارات حول علوم المدرسة الابتدائية ، ويأتي مع مجموعة من 17 مليون جملة. تتضمن هذه النسخة فقرات تم جلبها عبر نظام استرجاع المعلومات كدليل إضافي.

  • حجم التحميل : 16.95 MiB

  • حجم مجموعة البيانات : 17.30 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 920
'train' 8134
'validation' 926
  • الاقتباس :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / quoref

  • وصف التكوين : تختبر مجموعة البيانات هذه القدرة على التفكير المرجعي لأنظمة فهم القراءة. في هذا المعيار المعياري لتحديد الامتداد الذي يحتوي على أسئلة فوق فقرات من ويكيبيديا ، يجب على النظام حل المراجع الصلبة قبل تحديد الامتداد (النطاقات) المناسبة في الفقرات للإجابة على الأسئلة.

  • حجم التحميل : 51.43 MiB

  • حجم مجموعة البيانات : 52.29 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 22265
'validation' 2768
  • الاقتباس :
@inproceedings{dasigi-etal-2019-quoref,
    title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
    author = "Dasigi, Pradeep  and
      Liu, Nelson F.  and
      Marasovi{'c}, Ana  and
      Smith, Noah A.  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1606",
    doi = "10.18653/v1/D19-1606",
    pages = "5925--5932",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / Race_string

  • وصف التكوين : Race عبارة عن مجموعة بيانات واسعة النطاق لفهم القراءة. يتم جمع مجموعة البيانات من اختبارات اللغة الإنجليزية في الصين ، والتي تم تصميمها لطلاب المدارس المتوسطة والثانوية. يمكن تقديم مجموعة البيانات كمجموعات تدريب واختبار لفهم الآلة.

  • حجم التحميل : 167.97 MiB

  • حجم مجموعة البيانات : 171.23 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): نعم (اختبار ، التحقق من الصحة) ، فقط عندما يكون shuffle_files=False (قطار)

  • الانقسامات :

انشق، مزق أمثلة
'test' 4934
'train' 87863
'validation' 4،887
  • الاقتباس :
@inproceedings{lai-etal-2017-race,
    title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
    author = "Lai, Guokun  and
      Xie, Qizhe  and
      Liu, Hanxiao  and
      Yang, Yiming  and
      Hovy, Eduard",
    booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
    month = sep,
    year = "2017",
    address = "Copenhagen, Denmark",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D17-1082",
    doi = "10.18653/v1/D17-1082",
    pages = "785--794",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / Race_string_dev

  • وصف التكوين : Race عبارة عن مجموعة بيانات واسعة النطاق لفهم القراءة. يتم جمع مجموعة البيانات من اختبارات اللغة الإنجليزية في الصين ، والتي تم تصميمها لطلاب المدارس المتوسطة والثانوية. يمكن تقديم مجموعة البيانات كمجموعات تدريب واختبار لفهم الآلة.

  • حجم التحميل : 167.97 MiB

  • حجم مجموعة البيانات : 171.23 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): نعم (اختبار ، التحقق من الصحة) ، فقط عندما يكون shuffle_files=False (قطار)

  • الانقسامات :

انشق، مزق أمثلة
'test' 4934
'train' 87863
'validation' 4،887
  • الاقتباس :
@inproceedings{lai-etal-2017-race,
    title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
    author = "Lai, Guokun  and
      Xie, Qizhe  and
      Liu, Hanxiao  and
      Yang, Yiming  and
      Hovy, Eduard",
    booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
    month = sep,
    year = "2017",
    address = "Copenhagen, Denmark",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D17-1082",
    doi = "10.18653/v1/D17-1082",
    pages = "785--794",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / الحبال

  • وصف التكوين : تختبر مجموعة البيانات هذه قدرة النظام على تطبيق المعرفة من مرور النص إلى حالة جديدة. يتم تقديم فقرة خلفية للنظام تحتوي على علاقة (علاقات) سببية أو نوعية (على سبيل المثال ، "الملقحات الحيوانية تزيد من كفاءة الإخصاب في الأزهار") ، وهي حالة جديدة تستخدم هذه الخلفية ، والأسئلة التي تتطلب التفكير حول تأثيرات العلاقات في فقرة الخلفية في سياق الموقف.

  • حجم التحميل : 12.91 MiB

  • حجم مجموعة البيانات : 13.35 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 10924
'validation' 1،688
  • الاقتباس :
@inproceedings{lin-etal-2019-reasoning,
    title = "Reasoning Over Paragraph Effects in Situations",
    author = "Lin, Kevin  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5808",
    doi = "10.18653/v1/D19-5808",
    pages = "58--62",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / social_iqa

  • وصف التكوين : هذا معيار واسع النطاق للتفكير المنطقي حول المواقف الاجتماعية. يحتوي تطبيق Social IQa على أسئلة متعددة الخيارات لفحص الذكاء العاطفي والاجتماعي في مجموعة متنوعة من المواقف اليومية. من خلال التعهيد الجماعي ، يتم جمع الأسئلة المنطقية جنبًا إلى جنب مع الإجابات الصحيحة وغير الصحيحة حول التفاعلات الاجتماعية ، وذلك باستخدام إطار عمل جديد يخفف من الآثار الأسلوبية في الإجابات غير الصحيحة عن طريق مطالبة العمال بتقديم الإجابة الصحيحة لسؤال مختلف ولكن ذي صلة.

  • حجم التحميل : 7.08 MiB

  • حجم مجموعة البيانات : 8.22 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 33410
'validation' 1954
  • الاقتباس :
@inproceedings{sap-etal-2019-social,
    title = "Social {IQ}a: Commonsense Reasoning about Social Interactions",
    author = "Sap, Maarten  and
      Rashkin, Hannah  and
      Chen, Derek  and
      Le Bras, Ronan  and
      Choi, Yejin",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1454",
    doi = "10.18653/v1/D19-1454",
    pages = "4463--4473",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / squad1_1

  • وصف التكوين : هذه مجموعة بيانات لفهم القراءة تتكون من أسئلة يطرحها العاملون في الحشد على مجموعة من مقالات ويكيبيديا ، حيث تكون الإجابة على كل سؤال عبارة عن جزء من نص من فقرة القراءة المقابلة.

  • حجم التحميل : 80.62 MiB

  • حجم مجموعة البيانات : 83.99 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 87514
'validation' 10570
  • الاقتباس :
@inproceedings{rajpurkar-etal-2016-squad,
    title = "{SQ}u{AD}: 100,000+ Questions for Machine Comprehension of Text",
    author = "Rajpurkar, Pranav  and
      Zhang, Jian  and
      Lopyrev, Konstantin  and
      Liang, Percy",
    booktitle = "Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing",
    month = nov,
    year = "2016",
    address = "Austin, Texas",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D16-1264",
    doi = "10.18653/v1/D16-1264",
    pages = "2383--2392",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / فرقة 2

  • وصف التكوين : تجمع مجموعة البيانات هذه بين مجموعة بيانات ستانفورد الأصلية للإجابة على الأسئلة (SQuAD) مع أسئلة لا يمكن الإجابة عليها مكتوبة بشكل عكسي من قبل عمال الحشود لتبدو مشابهة للأسئلة التي يمكن الإجابة عليها.

  • حجم التحميل : 116.56 MiB

  • حجم مجموعة البيانات : 121.43 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 130149
'validation' 11873
  • الاقتباس :
@inproceedings{rajpurkar-etal-2018-know,
    title = "Know What You Don{'}t Know: Unanswerable Questions for {SQ}u{AD}",
    author = "Rajpurkar, Pranav  and
      Jia, Robin  and
      Liang, Percy",
    booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)",
    month = jul,
    year = "2018",
    address = "Melbourne, Australia",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/P18-2124",
    doi = "10.18653/v1/P18-2124",
    pages = "784--789",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / winogrande_l

  • وصف التكوين : مجموعة البيانات هذه مستوحاة من تصميم Winograd Schema Challenge الأصلي ، ولكن تم تعديلها لتحسين كل من الحجم والصلابة لمجموعة البيانات. تتكون الخطوات الرئيسية لبناء مجموعة البيانات من (1) إجراء التعهيد الجماعي المصمم بعناية ، متبوعًا بـ (2) تقليل التحيز المنتظم باستخدام خوارزمية AfLite الجديدة التي تعمم ارتباطات الكلمات التي يمكن اكتشافها من قبل الإنسان على ارتباطات التضمين التي يمكن اكتشافها آليًا. يتم توفير مجموعات تدريب بأحجام مختلفة. هذه المجموعة تتوافق مع الحجم l .

  • حجم التحميل : 1.49 MiB

  • حجم مجموعة البيانات : 1.83 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 10،234
'validation' 1،267
  • الاقتباس :
@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / winogrande_m

  • وصف التكوين : مجموعة البيانات هذه مستوحاة من تصميم Winograd Schema Challenge الأصلي ، ولكن تم تعديلها لتحسين كل من الحجم والصلابة لمجموعة البيانات. تتكون الخطوات الرئيسية لبناء مجموعة البيانات من (1) إجراء التعهيد الجماعي المصمم بعناية ، متبوعًا بـ (2) تقليل التحيز المنتظم باستخدام خوارزمية AfLite الجديدة التي تعمم ارتباطات الكلمات التي يمكن اكتشافها من قبل الإنسان على ارتباطات التضمين التي يمكن اكتشافها آليًا. يتم توفير مجموعات تدريب بأحجام مختلفة. هذه المجموعة تتوافق مع الحجم m .

  • حجم التحميل : 507.46 KiB

  • حجم مجموعة البيانات : 623.15 KiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 2،558
'validation' 1،267
  • الاقتباس :
@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa / winogrande_s

  • وصف التكوين : مجموعة البيانات هذه مستوحاة من تصميم Winograd Schema Challenge الأصلي ، ولكن تم تعديلها لتحسين كل من الحجم والصلابة لمجموعة البيانات. تتكون الخطوات الرئيسية لبناء مجموعة البيانات من (1) إجراء التعهيد الجماعي المصمم بعناية ، متبوعًا بـ (2) تقليل التحيز المنتظم باستخدام خوارزمية AfLite الجديدة التي تعمم ارتباطات الكلمات التي يمكن اكتشافها من قبل الإنسان على ارتباطات التضمين التي يمكن اكتشافها آليًا. يتم توفير مجموعات تدريب بأحجام مختلفة. هذه المجموعة تتوافق مع حجم s .

  • حجم التحميل : 479.24 KiB

  • حجم مجموعة البيانات : 590.47 KiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 1،767
'train' 640
'validation' 1،267
  • الاقتباس :
@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."