TFDS اکنون از فرمت Croissant 🥐 پشتیبانی می کند! برای دانستن بیشتر مستندات را بخوانید.

این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

unified_qa

توضیحات :

معیار UnifiedQA متشکل از 20 مجموعه داده پاسخ به سؤال اصلی (QA) است (هر کدام ممکن است چندین نسخه داشته باشند) که قالب‌های مختلف و همچنین پدیده‌های پیچیده زبانی مختلف را هدف قرار می‌دهند. این مجموعه داده‌ها در قالب‌ها/دسته‌های مختلفی دسته‌بندی می‌شوند، از جمله: QA استخراجی، QA انتزاعی، QA چند گزینه‌ای، و بله/خیر QA. علاوه بر این، مجموعه های کنتراست برای چندین مجموعه داده استفاده می شود (که با " مجموعه های کنتراست" مشخص می شود). این مجموعه‌های ارزیابی، آشفتگی‌های تولید شده توسط متخصص هستند که از الگوهای رایج در مجموعه داده اصلی منحرف می‌شوند. برای چندین مجموعه داده که با پاراگراف شواهد همراه نیستند، دو نوع گنجانده شده است: یکی که در آن مجموعه داده‌ها همانطور که هست استفاده می‌شوند و دیگری که از پاراگراف‌های واکشی شده از طریق یک سیستم بازیابی اطلاعات به عنوان شواهد اضافی استفاده می‌کند که با برچسب‌های "_ir" نشان داده شده است.

اطلاعات بیشتر را می توانید در: https://github.com/allenai/unifiedqa پیدا کنید

صفحه اصلی : https://github.com/allenai/unifiedqa
کد منبع : tfds.text.unifiedqa.UnifiedQA
نسخه ها :
- 1.0.0 (پیش فرض): انتشار اولیه.
ساختار ویژگی :

FeaturesDict({
    'input': string,
    'output': string,
})

مستندات ویژگی :

ویژگی	کلاس	نوع D
	FeaturesDict
ورودی	تانسور	رشته
خروجی	تانسور	رشته

کلیدهای نظارت شده (به as_supervised doc مراجعه کنید): None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.

unified_qa/ai2_science_elementary (پیکربندی پیش فرض)

توضیحات پیکربندی : مجموعه داده سوالات علمی AI2 شامل سوالاتی است که در ارزیابی دانش‌آموزان در ایالات متحده در سطوح پایه ابتدایی و راهنمایی استفاده می‌شوند. هر سوال فرمت چند گزینه ای 4 طرفه است و ممکن است شامل یک عنصر نمودار باشد یا نباشد. این مجموعه شامل سوالاتی است که برای مقاطع ابتدایی استفاده می شود.
حجم دانلود : 345.59 KiB
حجم مجموعه داده : 390.02 KiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'test'`	542
`'train'`	623
`'validation'`	123

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

http://data.allenai.org/ai2-science-questions

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/ai2_science_middle

توضیحات پیکربندی : مجموعه داده سوالات علمی AI2 شامل سوالاتی است که در ارزیابی دانش‌آموزان در ایالات متحده در سطوح پایه ابتدایی و راهنمایی استفاده می‌شوند. هر سوال فرمت چند گزینه ای 4 طرفه است و ممکن است شامل یک عنصر نمودار باشد یا نباشد. این مجموعه شامل سوالاتی است که برای مقاطع راهنمایی استفاده می شود.
حجم دانلود : 428.41 KiB
حجم مجموعه داده : 477.40 KiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'test'`	679
`'train'`	605
`'validation'`	125

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

http://data.allenai.org/ai2-science-questions

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/ambigqa

توضیحات پیکربندی : AmbigQA یک کار پاسخگویی به سؤالات دامنه باز است که شامل یافتن هر پاسخ قابل قبول و سپس بازنویسی سؤال برای هر یک برای رفع ابهام است.
حجم دانلود : 2.27 MiB
حجم مجموعه داده : 3.04 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'train'`	19806
`'validation'`	5,674

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{min-etal-2020-ambigqa,
    title = "{A}mbig{QA}: Answering Ambiguous Open-domain Questions",
    author = "Min, Sewon  and
      Michael, Julian  and
      Hajishirzi, Hannaneh  and
      Zettlemoyer, Luke",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.emnlp-main.466",
    doi = "10.18653/v1/2020.emnlp-main.466",
    pages = "5783--5797",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_easy

توضیحات پیکربندی : این مجموعه داده شامل سؤالات علمی چندگزینه ای واقعی در سطح پایه مدرسه است که برای تشویق به تحقیق در پاسخگویی به سؤالات پیشرفته جمع آوری شده است. مجموعه داده به یک مجموعه چالش و یک مجموعه آسان تقسیم می‌شود، که در آن اولی فقط شامل سؤالاتی است که توسط الگوریتم مبتنی بر بازیابی و الگوریتم هم‌روی کلمه به اشتباه پاسخ داده شده است. این مجموعه از سوالات "آسان" تشکیل شده است.
حجم دانلود : 1.24 MiB
حجم مجموعه داده : 1.42 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'test'`	2,376
`'train'`	2251
`'validation'`	570

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_easy_dev

توضیحات پیکربندی : این مجموعه داده شامل سؤالات علمی چندگزینه ای واقعی در سطح پایه مدرسه است که برای تشویق به تحقیق در پاسخگویی به سؤالات پیشرفته جمع آوری شده است. مجموعه داده به یک مجموعه چالش و یک مجموعه آسان تقسیم می‌شود، که در آن اولی فقط شامل سؤالاتی است که توسط الگوریتم مبتنی بر بازیابی و الگوریتم هم‌روی کلمه به اشتباه پاسخ داده شده است. این مجموعه از سوالات "آسان" تشکیل شده است.
حجم دانلود : 1.24 MiB
حجم مجموعه داده : 1.42 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'test'`	2,376
`'train'`	2251
`'validation'`	570

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_easy_with_ir

توضیحات پیکربندی : این مجموعه داده شامل سؤالات علمی چندگزینه ای واقعی در سطح پایه مدرسه است که برای تشویق به تحقیق در پاسخگویی به سؤالات پیشرفته جمع آوری شده است. مجموعه داده به یک مجموعه چالش و یک مجموعه آسان تقسیم می‌شود، که در آن اولی فقط شامل سؤالاتی است که توسط الگوریتم مبتنی بر بازیابی و الگوریتم هم‌روی کلمه به اشتباه پاسخ داده شده است. این مجموعه از سوالات "آسان" تشکیل شده است. این نسخه شامل پاراگراف هایی است که از طریق یک سیستم بازیابی اطلاعات به عنوان مدرک اضافی واکشی شده است.
حجم دانلود : 7.00 MiB
حجم مجموعه داده : 7.17 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'test'`	2,376
`'train'`	2251
`'validation'`	570

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_easy_with_ir_dev

توضیحات پیکربندی : این مجموعه داده شامل سؤالات علمی چندگزینه ای واقعی در سطح پایه مدرسه است که برای تشویق به تحقیق در پاسخگویی به سؤالات پیشرفته جمع آوری شده است. مجموعه داده به یک مجموعه چالش و یک مجموعه آسان تقسیم می‌شود، که در آن اولی فقط شامل سؤالاتی است که توسط الگوریتم مبتنی بر بازیابی و الگوریتم هم‌روی کلمه به اشتباه پاسخ داده شده است. این مجموعه از سوالات "آسان" تشکیل شده است. این نسخه شامل پاراگراف هایی است که از طریق یک سیستم بازیابی اطلاعات به عنوان مدرک اضافی واکشی شده است.
حجم دانلود : 7.00 MiB
حجم مجموعه داده : 7.17 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'test'`	2,376
`'train'`	2251
`'validation'`	570

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_hard

توضیحات پیکربندی : این مجموعه داده شامل سؤالات علمی چندگزینه ای واقعی در سطح پایه مدرسه است که برای تشویق به تحقیق در پاسخگویی به سؤالات پیشرفته جمع آوری شده است. مجموعه داده به یک مجموعه چالش و یک مجموعه آسان تقسیم می‌شود، که در آن اولی فقط شامل سؤالاتی است که توسط الگوریتم مبتنی بر بازیابی و الگوریتم هم‌روی کلمه به اشتباه پاسخ داده شده است. این مجموعه از سوالات "سخت" تشکیل شده است.
حجم دانلود : 758.03 KiB
حجم مجموعه داده : 848.28 KiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'test'`	1172
`'train'`	1119
`'validation'`	299

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_hard_dev

توضیحات پیکربندی : این مجموعه داده شامل سؤالات علمی چندگزینه ای واقعی در سطح پایه مدرسه است که برای تشویق به تحقیق در پاسخگویی به سؤالات پیشرفته جمع آوری شده است. مجموعه داده به یک مجموعه چالش و یک مجموعه آسان تقسیم می‌شود، که در آن اولی فقط شامل سؤالاتی است که توسط الگوریتم مبتنی بر بازیابی و الگوریتم هم‌روی کلمه به اشتباه پاسخ داده شده است. این مجموعه از سوالات "سخت" تشکیل شده است.
حجم دانلود : 758.03 KiB
حجم مجموعه داده : 848.28 KiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'test'`	1172
`'train'`	1119
`'validation'`	299

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_hard_with_ir

توضیحات پیکربندی : این مجموعه داده شامل سؤالات علمی چندگزینه ای واقعی در سطح پایه مدرسه است که برای تشویق به تحقیق در پاسخگویی به سؤالات پیشرفته جمع آوری شده است. مجموعه داده به یک مجموعه چالش و یک مجموعه آسان تقسیم می‌شود، که در آن اولی فقط شامل سؤالاتی است که توسط الگوریتم مبتنی بر بازیابی و الگوریتم هم‌روی کلمه به اشتباه پاسخ داده شده است. این مجموعه از سوالات "سخت" تشکیل شده است. این نسخه شامل پاراگراف هایی است که از طریق یک سیستم بازیابی اطلاعات به عنوان مدرک اضافی واکشی شده است.
حجم دانلود : 3.53 MiB
حجم مجموعه داده : 3.62 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'test'`	1172
`'train'`	1119
`'validation'`	299

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_hard_with_ir_dev

توضیحات پیکربندی : این مجموعه داده شامل سؤالات علمی چندگزینه ای واقعی در سطح پایه مدرسه است که برای تشویق به تحقیق در پاسخگویی به سؤالات پیشرفته جمع آوری شده است. مجموعه داده به یک مجموعه چالش و یک مجموعه آسان تقسیم می‌شود، که در آن اولی فقط شامل سؤالاتی است که توسط الگوریتم مبتنی بر بازیابی و الگوریتم هم‌روی کلمه به اشتباه پاسخ داده شده است. این مجموعه از سوالات "سخت" تشکیل شده است. این نسخه شامل پاراگراف هایی است که از طریق یک سیستم بازیابی اطلاعات به عنوان مدرک اضافی واکشی شده است.
حجم دانلود : 3.53 MiB
حجم مجموعه داده : 3.62 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'test'`	1172
`'train'`	1119
`'validation'`	299

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/boolq

توضیحات پیکربندی : BoolQ مجموعه داده پاسخگویی به سوالات برای سوالات بله/خیر است. این سوالات به طور طبیعی رخ می دهند --- آنها در تنظیمات بدون درخواست و بدون محدودیت ایجاد می شوند. هر مثال یک سه گانه از (سوال، متن، پاسخ)، با عنوان صفحه به عنوان زمینه اضافی اختیاری است. راه‌اندازی طبقه‌بندی جفت متن مشابه وظایف استنتاج زبان طبیعی موجود است.
حجم دانلود : 7.77 MiB
حجم مجموعه داده : 8.20 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'train'`	9,427
`'validation'`	3270

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{clark-etal-2019-boolq,
    title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
    author = "Clark, Christopher  and
      Lee, Kenton  and
      Chang, Ming-Wei  and
      Kwiatkowski, Tom  and
      Collins, Michael  and
      Toutanova, Kristina",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1300",
    doi = "10.18653/v1/N19-1300",
    pages = "2924--2936",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/boolq_np

توضیحات پیکربندی : BoolQ مجموعه داده پاسخگویی به سوالات برای سوالات بله/خیر است. این سوالات به طور طبیعی رخ می دهند --- آنها در تنظیمات بدون درخواست و بدون محدودیت ایجاد می شوند. هر مثال یک سه گانه از (سوال، متن، پاسخ)، با عنوان صفحه به عنوان زمینه اضافی اختیاری است. راه‌اندازی طبقه‌بندی جفت متن مشابه وظایف استنتاج زبان طبیعی موجود است. این نسخه اختلالات طبیعی را به نسخه اصلی اضافه می کند.
حجم دانلود : 10.80 MiB
حجم مجموعه داده : 11.40 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'train'`	9,727
`'validation'`	7596

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{khashabi-etal-2020-bang,
    title = "More Bang for Your Buck: Natural Perturbation for Robust Question Answering",
    author = "Khashabi, Daniel  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.emnlp-main.12",
    doi = "10.18653/v1/2020.emnlp-main.12",
    pages = "163--170",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/commonsenseqa

توضیحات پیکربندی : CommonsenseQA مجموعه داده پاسخگویی به سوالات چند گزینه ای جدید است که برای پیش بینی پاسخ های صحیح به انواع مختلفی از دانش عام نیاز دارد. این شامل سوالات با یک پاسخ صحیح و چهار پاسخ حواس پرتی است.
حجم دانلود : 1.79 MiB
حجم مجموعه داده : 2.19 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'test'`	1,140
`'train'`	9741
`'validation'`	1,221

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{talmor-etal-2019-commonsenseqa,
    title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
    author = "Talmor, Alon  and
      Herzig, Jonathan  and
      Lourie, Nicholas  and
      Berant, Jonathan",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1421",
    doi = "10.18653/v1/N19-1421",
    pages = "4149--4158",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/commonsenseqa_test

توضیحات پیکربندی : CommonsenseQA مجموعه داده پاسخگویی به سوالات چند گزینه ای جدید است که برای پیش بینی پاسخ های صحیح به انواع مختلفی از دانش عام نیاز دارد. این شامل سوالات با یک پاسخ صحیح و چهار پاسخ حواس پرتی است.
حجم دانلود : 1.79 MiB
حجم مجموعه داده : 2.19 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'test'`	1,140
`'train'`	9741
`'validation'`	1,221

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{talmor-etal-2019-commonsenseqa,
    title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
    author = "Talmor, Alon  and
      Herzig, Jonathan  and
      Lourie, Nicholas  and
      Berant, Jonathan",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1421",
    doi = "10.18653/v1/N19-1421",
    pages = "4149--4158",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_boolq

توضیحات پیکربندی : BoolQ مجموعه داده پاسخگویی به سوالات برای سوالات بله/خیر است. این سوالات به طور طبیعی رخ می دهند --- آنها در تنظیمات بدون درخواست و بدون محدودیت ایجاد می شوند. هر مثال یک سه گانه از (سوال، متن، پاسخ)، با عنوان صفحه به عنوان زمینه اضافی اختیاری است. راه‌اندازی طبقه‌بندی جفت متن مشابه وظایف استنتاج زبان طبیعی موجود است. این نسخه از مجموعه های کنتراست استفاده می کند. این مجموعه‌های ارزیابی، آشفتگی‌های تولید شده توسط متخصص هستند که از الگوهای رایج در مجموعه داده اصلی منحرف می‌شوند.
حجم دانلود : 438.51 KiB
حجم مجموعه داده : 462.35 KiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'train'`	340
`'validation'`	340

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{clark-etal-2019-boolq,
    title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
    author = "Clark, Christopher  and
      Lee, Kenton  and
      Chang, Ming-Wei  and
      Kwiatkowski, Tom  and
      Collins, Michael  and
      Toutanova, Kristina",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1300",
    doi = "10.18653/v1/N19-1300",
    pages = "2924--2936",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_drop

توضیحات پیکربندی : DROP یک معیار QA جمع‌سپاری شده است که به‌طور متخاصم ایجاد می‌شود، که در آن یک سیستم باید ارجاع‌ها را در یک سؤال، شاید به موقعیت‌های ورودی متعدد، حل کند و عملیات مجزا را روی آنها انجام دهد (مانند جمع، شمارش یا مرتب‌سازی). این عملیات نیاز به درک بسیار جامع تری از محتوای پاراگراف ها نسبت به آنچه برای مجموعه داده های قبلی لازم بود دارد. این نسخه از مجموعه های کنتراست استفاده می کند. این مجموعه‌های ارزیابی، آشفتگی‌های تولید شده توسط متخصص هستند که از الگوهای رایج در مجموعه داده اصلی منحرف می‌شوند.
حجم دانلود : 2.20 MiB
حجم مجموعه داده : 2.26 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'train'`	947
`'validation'`	947

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{dua-etal-2019-drop,
    title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
    author = "Dua, Dheeru  and
      Wang, Yizhong  and
      Dasigi, Pradeep  and
      Stanovsky, Gabriel  and
      Singh, Sameer  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1246",
    doi = "10.18653/v1/N19-1246",
    pages = "2368--2378",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_quoref

توضیحات پیکربندی : این مجموعه داده قابلیت استدلال همبستگی سیستم‌های درک مطلب را آزمایش می‌کند. در این معیار گزینش گستره شامل سؤالات بر روی پاراگراف‌ها از ویکی‌پدیا، یک سیستم باید قبل از انتخاب گستره(های) مناسب در پاراگراف‌ها برای پاسخ دادن به سؤالات، پیوندهای سخت را حل کند. این نسخه از مجموعه های کنتراست استفاده می کند. این مجموعه‌های ارزیابی، آشفتگی‌های تولید شده توسط متخصص هستند که از الگوهای رایج در مجموعه داده اصلی منحرف می‌شوند.
حجم دانلود : 2.60 MiB
حجم مجموعه داده : 2.65 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'train'`	700
`'validation'`	700

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{dasigi-etal-2019-quoref,
    title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
    author = "Dasigi, Pradeep  and
      Liu, Nelson F.  and
      Marasovi{'c}, Ana  and
      Smith, Noah A.  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1606",
    doi = "10.18653/v1/D19-1606",
    pages = "5925--5932",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_ropes

توضیحات پیکربندی : این مجموعه داده توانایی سیستم را برای اعمال دانش از قسمتی از متن به موقعیت جدید آزمایش می کند. یک سیستم یک متن پس‌زمینه حاوی یک رابطه علی یا کیفی ارائه می‌کند (به عنوان مثال، «گرده‌افشان‌های حیوانات کارایی لقاح را در گل‌ها افزایش می‌دهند»)، یک موقعیت جدید که از این پس‌زمینه استفاده می‌کند، و سؤالاتی که نیاز به استدلال در مورد تأثیرات روابط در متن پس زمینه در متن موقعیت این نسخه از مجموعه های کنتراست استفاده می کند. این مجموعه‌های ارزیابی، آشفتگی‌های تولید شده توسط متخصص هستند که از الگوهای رایج در مجموعه داده اصلی منحرف می‌شوند.
حجم دانلود : 1.97 MiB
حجم مجموعه داده : 2.04 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'train'`	974
`'validation'`	974

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{lin-etal-2019-reasoning,
    title = "Reasoning Over Paragraph Effects in Situations",
    author = "Lin, Kevin  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5808",
    doi = "10.18653/v1/D19-5808",
    pages = "58--62",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/drop

توضیحات پیکربندی : DROP یک معیار QA جمع‌سپاری شده است که به‌طور متخاصم ایجاد می‌شود، که در آن یک سیستم باید ارجاع‌ها را در یک سؤال، شاید به موقعیت‌های ورودی متعدد، حل کند و عملیات مجزا را روی آنها انجام دهد (مانند جمع، شمارش یا مرتب‌سازی). این عملیات نیاز به درک بسیار جامع تری از محتوای پاراگراف ها نسبت به آنچه برای مجموعه داده های قبلی لازم بود دارد.
حجم دانلود : 105.18 MiB
حجم مجموعه داده : 108.16 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'train'`	77,399
`'validation'`	9,536

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{dua-etal-2019-drop,
    title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
    author = "Dua, Dheeru  and
      Wang, Yizhong  and
      Dasigi, Pradeep  and
      Stanovsky, Gabriel  and
      Singh, Sameer  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1246",
    doi = "10.18653/v1/N19-1246",
    pages = "2368--2378",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/mctest

توضیحات پیکربندی : MCTest به ماشین‌ها نیاز دارد تا به سؤالات درک مطلب چند گزینه‌ای درباره داستان‌های تخیلی پاسخ دهند، و مستقیماً با هدف سطح بالای درک ماشین دامنه باز مقابله کنند. درک مطلب می‌تواند توانایی‌های پیشرفته‌ای مانند استدلال علّی و درک جهان را آزمایش کند، با این حال، با چند گزینه‌ای بودن، هنوز یک معیار واضح ارائه می‌کند. با تخیلی بودن، پاسخ را معمولاً فقط در خود داستان می توان یافت. داستان‌ها و سؤال‌ها نیز با دقت محدود به آن‌هایی هستند که یک کودک خردسال می‌فهمد و دانش جهانی را که برای این کار لازم است کاهش می‌دهد.
حجم دانلود : 2.14 MiB
حجم مجموعه داده : 2.20 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'train'`	1,480
`'validation'`	320

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{richardson-etal-2013-mctest,
    title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
    author = "Richardson, Matthew  and
      Burges, Christopher J.C.  and
      Renshaw, Erin",
    booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
    month = oct,
    year = "2013",
    address = "Seattle, Washington, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D13-1020",
    pages = "193--203",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/mctest_corrected_the_separator

توضیحات پیکربندی : MCTest به ماشین‌ها نیاز دارد تا به سؤالات درک مطلب چند گزینه‌ای درباره داستان‌های تخیلی پاسخ دهند، و مستقیماً با هدف سطح بالای درک ماشین دامنه باز مقابله کنند. درک مطلب می‌تواند توانایی‌های پیشرفته‌ای مانند استدلال علّی و درک جهان را آزمایش کند، با این حال، با چند گزینه‌ای بودن، هنوز یک معیار واضح ارائه می‌کند. با تخیلی بودن، پاسخ را معمولاً فقط در خود داستان می توان یافت. داستان‌ها و سؤال‌ها نیز با دقت محدود به آن‌هایی هستند که یک کودک خردسال می‌فهمد و دانش جهانی را که برای این کار لازم است کاهش می‌دهد.
حجم دانلود : 2.15 MiB
حجم مجموعه داده : 2.21 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'train'`	1,480
`'validation'`	320

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{richardson-etal-2013-mctest,
    title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
    author = "Richardson, Matthew  and
      Burges, Christopher J.C.  and
      Renshaw, Erin",
    booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
    month = oct,
    year = "2013",
    address = "Seattle, Washington, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D13-1020",
    pages = "193--203",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/multirc

توضیحات پیکربندی : MultiRC یک چالش درک مطلب است که در آن سوالات تنها با در نظر گرفتن اطلاعات چند جمله قابل پاسخگویی هستند. پرسش و پاسخ برای این چالش از طریق یک آزمایش جمع سپاری 4 مرحله ای درخواست و تأیید شد. مجموعه داده شامل سؤالاتی برای پاراگراف ها در 7 حوزه مختلف (علوم مدرسه ابتدایی، اخبار، راهنمای سفر، داستان های تخیلی، و غیره) است که تنوع زبانی را در متون و عبارت سؤالات ایجاد می کند.
حجم دانلود : 897.09 KiB
حجم مجموعه داده : 918.42 KiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'train'`	312
`'validation'`	312

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{khashabi-etal-2018-looking,
    title = "Looking Beyond the Surface: A Challenge Set for Reading Comprehension over Multiple Sentences",
    author = "Khashabi, Daniel  and
      Chaturvedi, Snigdha  and
      Roth, Michael  and
      Upadhyay, Shyam  and
      Roth, Dan",
    booktitle = "Proceedings of the 2018 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)",
    month = jun,
    year = "2018",
    address = "New Orleans, Louisiana",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N18-1023",
    doi = "10.18653/v1/N18-1023",
    pages = "252--262",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/narrativeqa

توضیحات پیکربندی : NarrativeQA یک مجموعه داده انگلیسی زبان از داستان ها و سؤالات مربوطه است که برای آزمایش درک خواندن، به ویژه در اسناد طولانی طراحی شده است.
حجم دانلود : 308.28 MiB
حجم مجموعه داده : 311.22 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیمات :

شکاف	مثال ها
`'test'`	21,114
`'train'`	65,494
`'validation'`	6922

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@article{kocisky-etal-2018-narrativeqa,
    title = "The {N}arrative{QA} Reading Comprehension Challenge",
    author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} }  and
      Schwarz, Jonathan  and
      Blunsom, Phil  and
      Dyer, Chris  and
      Hermann, Karl Moritz  and
      Melis, G{'a}bor  and
      Grefenstette, Edward",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "6",
    year = "2018",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q18-1023",
    doi = "10.1162/tacl_a_00023",
    pages = "317--328",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/narrativeqa_dev

توضیحات پیکربندی : NarrativeQA یک مجموعه داده انگلیسی زبان از داستان ها و سؤالات مربوطه است که برای آزمایش درک خواندن، به ویژه در اسناد طولانی طراحی شده است.
حجم دانلود : 308.28 MiB
حجم مجموعه داده : 311.22 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیمات :

شکاف	مثال ها
`'test'`	21,114
`'train'`	65,494
`'validation'`	6922

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@article{kocisky-etal-2018-narrativeqa,
    title = "The {N}arrative{QA} Reading Comprehension Challenge",
    author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} }  and
      Schwarz, Jonathan  and
      Blunsom, Phil  and
      Dyer, Chris  and
      Hermann, Karl Moritz  and
      Melis, G{'a}bor  and
      Grefenstette, Edward",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "6",
    year = "2018",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q18-1023",
    doi = "10.1162/tacl_a_00023",
    pages = "317--328",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

یکپارچه_قا/سوالات_طبیعی

توضیحات پیکربندی : مجموعه NQ حاوی سوالاتی از کاربران واقعی است و سیستم های QA را برای خواندن و درک کل مقاله ویکی پدیا که ممکن است حاوی پاسخ سوال باشد یا نباشد، نیاز دارد. گنجاندن سوالات واقعی کاربر، و نیاز به اینکه راه حل ها باید یک صفحه کامل را برای یافتن پاسخ بخوانند، باعث می شود که NQ یک کار واقعی تر و چالش برانگیزتر از مجموعه داده های QA قبلی باشد.
حجم دانلود : 6.95 MiB
حجم مجموعه داده : 9.88 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'train'`	96,075
`'validation'`	2295

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/natural_questions_direct_ans

توضیحات پیکربندی : مجموعه NQ حاوی سوالاتی از کاربران واقعی است و سیستم های QA را برای خواندن و درک کل مقاله ویکی پدیا که ممکن است حاوی پاسخ سوال باشد یا نباشد، نیاز دارد. گنجاندن سوالات واقعی کاربر، و نیاز به اینکه راه حل ها باید یک صفحه کامل را برای یافتن پاسخ بخوانند، باعث می شود که NQ یک کار واقعی تر و چالش برانگیزتر از مجموعه داده های QA قبلی باشد. این نسخه شامل سوالات مستقیم است.
حجم دانلود : 6.82 MiB
حجم مجموعه داده : 10.19 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'test'`	6,468
`'train'`	96676
`'validation'`	10693

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/natural_questions_direct_ans_test

توضیحات پیکربندی : مجموعه NQ حاوی سوالاتی از کاربران واقعی است و سیستم های QA را برای خواندن و درک کل مقاله ویکی پدیا که ممکن است حاوی پاسخ سوال باشد یا نباشد، نیاز دارد. گنجاندن سوالات واقعی کاربر، و نیاز به اینکه راه حل ها باید یک صفحه کامل را برای یافتن پاسخ بخوانند، باعث می شود که NQ یک کار واقعی تر و چالش برانگیزتر از مجموعه داده های QA قبلی باشد. این نسخه شامل سوالات مستقیم است.
حجم دانلود : 6.82 MiB
حجم مجموعه داده : 10.19 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'test'`	6,468
`'train'`	96676
`'validation'`	10693

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

یکپارچه_قا/سوالات_طبیعی_با_دپر_پارا

توضیحات پیکربندی : مجموعه NQ حاوی سوالاتی از کاربران واقعی است و سیستم های QA را برای خواندن و درک کل مقاله ویکی پدیا که ممکن است حاوی پاسخ سوال باشد یا نباشد، نیاز دارد. گنجاندن سوالات واقعی کاربر، و نیاز به اینکه راه حل ها باید یک صفحه کامل را برای یافتن پاسخ بخوانند، باعث می شود که NQ یک کار واقعی تر و چالش برانگیزتر از مجموعه داده های QA قبلی باشد. این نسخه شامل پاراگراف های اضافی (به دست آمده با استفاده از موتور بازیابی DPR) برای تقویت هر سوال است.
حجم دانلود : 319.22 MiB
حجم مجموعه داده : 322.91 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیمات :

شکاف	مثال ها
`'train'`	96676
`'validation'`	10693

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

یکپارچه_قا/سوالات_طبیعی_با_تست_دپر_پارا

توضیحات پیکربندی : مجموعه NQ حاوی سوالاتی از کاربران واقعی است و سیستم های QA را برای خواندن و درک کل مقاله ویکی پدیا که ممکن است حاوی پاسخ سوال باشد یا نباشد، نیاز دارد. گنجاندن سوالات واقعی کاربر، و نیاز به اینکه راه حل ها باید یک صفحه کامل را برای یافتن پاسخ بخوانند، باعث می شود که NQ یک کار واقعی تر و چالش برانگیزتر از مجموعه داده های QA قبلی باشد. این نسخه شامل پاراگراف های اضافی (به دست آمده با استفاده از موتور بازیابی DPR) برای تقویت هر سوال است.
حجم دانلود : 306.94 MiB
حجم مجموعه داده : 310.48 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیمات :

شکاف	مثال ها
`'test'`	6,468
`'train'`	96676

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/newsqa

توضیحات پیکربندی : NewsQA مجموعه داده های چالش برانگیز درک ماشینی از جفت پرسش-پاسخ تولید شده توسط انسان است. Crowdworkers بر اساس مجموعه‌ای از مقالات خبری CNN، با پاسخ‌هایی متشکل از گستره‌های متنی از مقالات مربوطه، پرسش‌ها و پاسخ‌هایی را ارائه می‌کنند.
حجم دانلود : 283.33 MiB
حجم مجموعه داده : 285.94 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیمات :

شکاف	مثال ها
`'train'`	75,882
`'validation'`	4,309

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{trischler-etal-2017-newsqa,
    title = "{N}ews{QA}: A Machine Comprehension Dataset",
    author = "Trischler, Adam  and
      Wang, Tong  and
      Yuan, Xingdi  and
      Harris, Justin  and
      Sordoni, Alessandro  and
      Bachman, Philip  and
      Suleman, Kaheer",
    booktitle = "Proceedings of the 2nd Workshop on Representation Learning for {NLP}",
    month = aug,
    year = "2017",
    address = "Vancouver, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/W17-2623",
    doi = "10.18653/v1/W17-2623",
    pages = "191--200",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa

شرح پیکربندی : OpenBookQA با هدف ترویج تحقیق در پاسخگویی به سؤالات پیشرفته، کاوش در درک عمیق‌تر هم از موضوع (با حقایق برجسته که به عنوان یک کتاب باز خلاصه شده است، هم با مجموعه داده ارائه شده است) و هم زبانی که به آن بیان می‌شود. شامل سوالاتی است که نیاز به استدلال چند مرحله ای، استفاده از دانش مشترک و عام اضافی و درک متن غنی دارد. OpenBookQA نوع جدیدی از مجموعه داده های پاسخگوی پرسش است که پس از آزمون های کتاب باز برای ارزیابی درک انسان از یک موضوع مدل شده است.
حجم دانلود : 942.34 KiB
حجم مجموعه داده : 1.11 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'test'`	500
`'train'`	4,957
`'validation'`	500

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa_dev

شرح پیکربندی : OpenBookQA با هدف ترویج تحقیق در پاسخگویی به سؤالات پیشرفته، کاوش در درک عمیق‌تر هم از موضوع (با حقایق برجسته که به عنوان یک کتاب باز خلاصه شده است، هم با مجموعه داده ارائه شده است) و هم زبانی که به آن بیان می‌شود. شامل سوالاتی است که نیاز به استدلال چند مرحله ای، استفاده از دانش مشترک و عام اضافی و درک متن غنی دارد. OpenBookQA نوع جدیدی از مجموعه داده های پاسخگوی پرسش است که پس از آزمون های کتاب باز برای ارزیابی درک انسان از یک موضوع مدل شده است.
حجم دانلود : 942.34 KiB
حجم مجموعه داده : 1.11 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'test'`	500
`'train'`	4,957
`'validation'`	500

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa_with_ir

شرح پیکربندی : OpenBookQA با هدف ترویج تحقیق در پاسخگویی به سؤالات پیشرفته، کاوش در درک عمیق‌تر هم از موضوع (با حقایق برجسته که به عنوان یک کتاب باز خلاصه شده است، هم با مجموعه داده ارائه شده است) و هم زبانی که به آن بیان می‌شود. شامل سوالاتی است که نیاز به استدلال چند مرحله ای، استفاده از دانش مشترک و عام اضافی و درک متن غنی دارد. OpenBookQA نوع جدیدی از مجموعه داده های پاسخگوی پرسش است که پس از آزمون های کتاب باز برای ارزیابی درک انسان از یک موضوع مدل شده است. این نسخه شامل پاراگراف هایی است که از طریق یک سیستم بازیابی اطلاعات به عنوان مدرک اضافی واکشی شده است.
حجم دانلود : 6.08 MiB
حجم مجموعه داده : 6.28 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'test'`	500
`'train'`	4,957
`'validation'`	500

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa_with_ir_dev

شرح پیکربندی : OpenBookQA با هدف ترویج تحقیق در پاسخگویی به سؤالات پیشرفته، کاوش در درک عمیق‌تر هم از موضوع (با حقایق برجسته که به عنوان یک کتاب باز خلاصه شده است، هم با مجموعه داده ارائه شده است) و هم زبانی که به آن بیان می‌شود. شامل سوالاتی است که نیاز به استدلال چند مرحله ای، استفاده از دانش مشترک و عام اضافی و درک متن غنی دارد. OpenBookQA نوع جدیدی از مجموعه داده های پاسخگوی پرسش است که پس از آزمون های کتاب باز برای ارزیابی درک انسان از یک موضوع مدل شده است. این نسخه شامل پاراگراف هایی است که از طریق یک سیستم بازیابی اطلاعات به عنوان مدرک اضافی واکشی شده است.
حجم دانلود : 6.08 MiB
حجم مجموعه داده : 6.28 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'test'`	500
`'train'`	4,957
`'validation'`	500

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/physical_iqa

توضیحات پیکربندی : این مجموعه داده ای برای معیار پیشرفت در درک عام فیزیکی است. تکلیف اساسی پاسخگویی به سوال چند گزینه ای است: با توجه به یک سوال q و دو راه حل ممکن s1، s2، یک مدل یا یک انسان باید مناسب ترین راه حل را انتخاب کند که دقیقا یکی از آنها صحیح است. مجموعه داده بر موقعیت های روزمره با اولویت راه حل های غیر معمول تمرکز می کند. این مجموعه داده از instructables.com الهام گرفته شده است، که دستورالعمل هایی را در مورد نحوه ساخت، ساخت، پخت یا دستکاری اشیا با استفاده از مواد روزمره به کاربران ارائه می دهد. از حاشیه نویس ها خواسته می شود تا آشفتگی های معنایی یا رویکردهای جایگزین را ارائه دهند که در غیر این صورت از نظر نحوی و موضعی مشابه هستند تا اطمینان حاصل شود که دانش فیزیکی هدف قرار گرفته است. مجموعه داده بیشتر با استفاده از الگوریتم AFLite از مصنوعات اساسی پاک می شود.
حجم دانلود : 6.01 MiB
حجم مجموعه داده : 6.59 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'train'`	16113
`'validation'`	1,838

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{bisk2020piqa,
    title={Piqa: Reasoning about physical commonsense in natural language},
    author={Bisk, Yonatan and Zellers, Rowan and Gao, Jianfeng and Choi, Yejin and others},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={7432--7439},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/qasc

توضیحات پیکربندی : QASC یک مجموعه داده پاسخگوی سوال با تمرکز بر ترکیب جمله است. این شامل سوالات 8 گزینه ای چند گزینه ای در مورد علوم پایه است و با مجموعه ای از 17 میلیون جمله همراه است.
حجم دانلود : 1.75 MiB
حجم مجموعه داده : 2.09 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'test'`	920
`'train'`	8,134
`'validation'`	926

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/qasc_test

توضیحات پیکربندی : QASC یک مجموعه داده پاسخگوی سوال با تمرکز بر ترکیب جمله است. این شامل سوالات 8 گزینه ای چند گزینه ای در مورد علوم پایه است و با مجموعه ای از 17 میلیون جمله همراه است.
حجم دانلود : 1.75 MiB
حجم مجموعه داده : 2.09 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'test'`	920
`'train'`	8,134
`'validation'`	926

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/qasc_with_ir

توضیحات پیکربندی : QASC یک مجموعه داده پاسخگوی سوال با تمرکز بر ترکیب جمله است. این شامل سوالات 8 گزینه ای چند گزینه ای در مورد علوم پایه است و با مجموعه ای از 17 میلیون جمله همراه است. این نسخه شامل پاراگراف هایی است که از طریق یک سیستم بازیابی اطلاعات به عنوان مدرک اضافی واکشی شده است.
حجم دانلود : 16.95 MiB
حجم مجموعه داده : 17.30 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'test'`	920
`'train'`	8,134
`'validation'`	926

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/qasc_with_ir_test

توضیحات پیکربندی : QASC یک مجموعه داده پاسخگوی سوال با تمرکز بر ترکیب جمله است. این شامل سوالات 8 گزینه ای چند گزینه ای در مورد علوم پایه است و با مجموعه ای از 17 میلیون جمله همراه است. این نسخه شامل پاراگراف هایی است که از طریق یک سیستم بازیابی اطلاعات به عنوان مدرک اضافی واکشی شده است.
حجم دانلود : 16.95 MiB
حجم مجموعه داده : 17.30 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'test'`	920
`'train'`	8,134
`'validation'`	926

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/quoref

توضیحات پیکربندی : این مجموعه داده قابلیت استدلال همبستگی سیستم‌های درک مطلب را آزمایش می‌کند. در این معیار گزینش گستره شامل سؤالات بر روی پاراگراف‌ها از ویکی‌پدیا، یک سیستم باید قبل از انتخاب گستره(های) مناسب در پاراگراف‌ها برای پاسخ دادن به سؤالات، پیوندهای سخت را حل کند.
حجم دانلود : 51.43 MiB
حجم مجموعه داده : 52.29 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'train'`	22265
`'validation'`	2768

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{dasigi-etal-2019-quoref,
    title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
    author = "Dasigi, Pradeep  and
      Liu, Nelson F.  and
      Marasovi{'c}, Ana  and
      Smith, Noah A.  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1606",
    doi = "10.18653/v1/D19-1606",
    pages = "5925--5932",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/race_string

توضیحات پیکربندی : Race یک مجموعه داده درک مطلب در مقیاس بزرگ است. مجموعه داده از امتحانات انگلیسی در چین جمع آوری شده است که برای دانش آموزان دبیرستانی و دبیرستانی طراحی شده است. مجموعه داده را می توان به عنوان مجموعه آموزشی و آزمایشی برای درک ماشین استفاده کرد.
حجم دانلود : 167.97 MiB
حجم مجموعه داده : 171.23 MiB
ذخیره خودکار ( مستندات ): بله (تست، اعتبارسنجی)، فقط زمانی که shuffle_files=False (قطار)
تقسیمات :

شکاف	مثال ها
`'test'`	4,934
`'train'`	87,863
`'validation'`	4,887

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{lai-etal-2017-race,
    title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
    author = "Lai, Guokun  and
      Xie, Qizhe  and
      Liu, Hanxiao  and
      Yang, Yiming  and
      Hovy, Eduard",
    booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
    month = sep,
    year = "2017",
    address = "Copenhagen, Denmark",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D17-1082",
    doi = "10.18653/v1/D17-1082",
    pages = "785--794",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/race_string_dev

توضیحات پیکربندی : Race یک مجموعه داده درک مطلب در مقیاس بزرگ است. مجموعه داده از امتحانات انگلیسی در چین جمع آوری شده است که برای دانش آموزان دبیرستانی و دبیرستانی طراحی شده است. مجموعه داده را می توان به عنوان مجموعه آموزشی و آزمایشی برای درک ماشین استفاده کرد.
حجم دانلود : 167.97 MiB
حجم مجموعه داده : 171.23 MiB
ذخیره خودکار ( مستندات ): بله (تست، اعتبارسنجی)، فقط زمانی که shuffle_files=False (قطار)
تقسیمات :

شکاف	مثال ها
`'test'`	4,934
`'train'`	87,863
`'validation'`	4,887

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{lai-etal-2017-race,
    title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
    author = "Lai, Guokun  and
      Xie, Qizhe  and
      Liu, Hanxiao  and
      Yang, Yiming  and
      Hovy, Eduard",
    booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
    month = sep,
    year = "2017",
    address = "Copenhagen, Denmark",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D17-1082",
    doi = "10.18653/v1/D17-1082",
    pages = "785--794",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

متحد_قا/طناب

توضیحات پیکربندی : این مجموعه داده توانایی سیستم را برای اعمال دانش از قسمتی از متن به موقعیت جدید آزمایش می کند. یک سیستم یک متن پس‌زمینه حاوی یک رابطه علی یا کیفی ارائه می‌کند (به عنوان مثال، «گرده‌افشان‌های حیوانات کارایی لقاح را در گل‌ها افزایش می‌دهند»)، یک موقعیت جدید که از این پس‌زمینه استفاده می‌کند، و سؤالاتی که نیاز به استدلال در مورد تأثیرات روابط در متن پس زمینه در متن موقعیت
حجم دانلود : 12.91 MiB
حجم مجموعه داده : 13.35 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'train'`	10,924
`'validation'`	1688

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{lin-etal-2019-reasoning,
    title = "Reasoning Over Paragraph Effects in Situations",
    author = "Lin, Kevin  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5808",
    doi = "10.18653/v1/D19-5808",
    pages = "58--62",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/social_iqa

توضیحات پیکربندی : این یک معیار در مقیاس بزرگ برای استدلال عقلانی در مورد موقعیت‌های اجتماعی است. IQa اجتماعی شامل سوالات چند گزینه ای برای بررسی هوش هیجانی و اجتماعی در موقعیت های مختلف روزمره است. از طریق جمع‌سپاری، سؤالات عامیانه همراه با پاسخ‌های صحیح و نادرست در مورد تعاملات اجتماعی جمع‌آوری می‌شوند، با استفاده از چارچوب جدیدی که مصنوعات سبکی را در پاسخ‌های نادرست با درخواست از کارگران برای ارائه پاسخ درست به یک سؤال متفاوت اما مرتبط، کاهش می‌دهد.
حجم دانلود : 7.08 MiB
حجم مجموعه داده : 8.22 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'train'`	33,410
`'validation'`	1,954

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{sap-etal-2019-social,
    title = "Social {IQ}a: Commonsense Reasoning about Social Interactions",
    author = "Sap, Maarten  and
      Rashkin, Hannah  and
      Chen, Derek  and
      Le Bras, Ronan  and
      Choi, Yejin",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1454",
    doi = "10.18653/v1/D19-1454",
    pages = "4463--4473",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/squad1_1

توضیحات پیکربندی : این مجموعه داده درک مطلب است که شامل سؤالاتی است که توسط جمعیّت‌کارها در مجموعه‌ای از مقالات ویکی‌پدیا مطرح می‌شود، که در آن پاسخ به هر سؤال بخشی از متن از قسمت خواندنی مربوطه است.
حجم دانلود : 80.62 MiB
حجم مجموعه داده : 83.99 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'train'`	87514
`'validation'`	10,570

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{rajpurkar-etal-2016-squad,
    title = "{SQ}u{AD}: 100,000+ Questions for Machine Comprehension of Text",
    author = "Rajpurkar, Pranav  and
      Zhang, Jian  and
      Lopyrev, Konstantin  and
      Liang, Percy",
    booktitle = "Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing",
    month = nov,
    year = "2016",
    address = "Austin, Texas",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D16-1264",
    doi = "10.18653/v1/D16-1264",
    pages = "2383--2392",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/squad2

توضیحات پیکربندی : این مجموعه داده مجموعه داده اصلی استنفورد Question Answering Dataset (SQuAD) را با سؤالات غیرقابل پاسخی که به صورت خصمانه توسط crowdworkers نوشته شده اند ترکیب می کند تا شبیه به سؤالات قابل پاسخ باشد.
حجم دانلود : 116.56 MiB
حجم مجموعه داده : 121.43 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'train'`	130,149
`'validation'`	11873

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{rajpurkar-etal-2018-know,
    title = "Know What You Don{'}t Know: Unanswerable Questions for {SQ}u{AD}",
    author = "Rajpurkar, Pranav  and
      Jia, Robin  and
      Liang, Percy",
    booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)",
    month = jul,
    year = "2018",
    address = "Melbourne, Australia",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/P18-2124",
    doi = "10.18653/v1/P18-2124",
    pages = "784--789",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/winogrande_l

توضیحات پیکربندی : این مجموعه داده از طرح اصلی چالش طرحواره Winograd الهام گرفته شده است، اما برای بهبود مقیاس و سختی مجموعه داده تنظیم شده است. مراحل کلیدی ساخت مجموعه داده شامل (1) یک روش جمع سپاری با دقت طراحی شده، و به دنبال آن (2) کاهش تعصب سیستماتیک با استفاده از یک الگوریتم جدید AfLite است که تداعی کلمات قابل شناسایی توسط انسان را به انجمن‌های جاسازی قابل شناسایی توسط ماشین تعمیم می‌دهد. مجموعه های آموزشی با اندازه های مختلف ارائه می شود. این مجموعه با اندازه l مطابقت دارد.
حجم دانلود : 1.49 MiB
حجم مجموعه داده : 1.83 MiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'train'`	10,234
`'validation'`	1,267

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/winogrande_m

توضیحات پیکربندی : این مجموعه داده از طرح اصلی چالش طرحواره Winograd الهام گرفته شده است، اما برای بهبود مقیاس و سختی مجموعه داده تنظیم شده است. مراحل کلیدی ساخت مجموعه داده شامل (1) یک روش جمع سپاری با دقت طراحی شده، و به دنبال آن (2) کاهش تعصب سیستماتیک با استفاده از یک الگوریتم جدید AfLite است که تداعی کلمات قابل شناسایی توسط انسان را به انجمن‌های جاسازی قابل شناسایی توسط ماشین تعمیم می‌دهد. مجموعه های آموزشی با اندازه های مختلف ارائه می شود. این مجموعه با اندازه m مطابقت دارد.
حجم دانلود : 507.46 KiB
حجم مجموعه داده : 623.15 KiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'train'`	2,558
`'validation'`	1,267

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/winogrande_s

توضیحات پیکربندی : این مجموعه داده از طرح اصلی چالش طرحواره Winograd الهام گرفته شده است، اما برای بهبود مقیاس و سختی مجموعه داده تنظیم شده است. مراحل کلیدی ساخت مجموعه داده شامل (1) یک روش جمع سپاری با دقت طراحی شده، و به دنبال آن (2) کاهش تعصب سیستماتیک با استفاده از یک الگوریتم جدید AfLite است که تداعی کلمات قابل شناسایی توسط انسان را به انجمن‌های جاسازی قابل شناسایی توسط ماشین تعمیم می‌دهد. مجموعه های آموزشی با اندازه های مختلف ارائه می شود. این مجموعه با اندازه s مطابقت دارد.
حجم دانلود : 479.24 KiB
حجم مجموعه داده : 590.47 KiB
ذخیره خودکار ( اسناد ): بله
تقسیمات :

شکاف	مثال ها
`'test'`	1,767
`'train'`	640
`'validation'`	1,267

مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.