unified_qa

  • বর্ণনা :

ইউনিফাইডকিউএ বেঞ্চমার্কে 20টি প্রধান প্রশ্নের উত্তর (QA) ডেটাসেট রয়েছে (প্রতিটির একাধিক সংস্করণ থাকতে পারে) যা বিভিন্ন ফর্ম্যাটের পাশাপাশি বিভিন্ন জটিল ভাষাগত ঘটনাকে লক্ষ্য করে। এই ডেটাসেটগুলিকে বিভিন্ন ফর্ম্যাট/বিভাগে গোষ্ঠীভুক্ত করা হয়েছে, যার মধ্যে রয়েছে: এক্সট্রাক্টিভ QA, বিমূর্ত QA, বহু-পছন্দের QA এবং হ্যাঁ/না QA৷ উপরন্তু, কন্ট্রাস্ট সেটগুলি বেশ কয়েকটি ডেটাসেটের জন্য ব্যবহার করা হয় ("কনট্রাস্ট সেট " দিয়ে চিহ্নিত)। এই মূল্যায়ন সেটগুলি হল বিশেষজ্ঞ-উত্পন্ন বিভ্রান্তি যা মূল ডেটাসেটের সাধারণ প্যাটার্ন থেকে বিচ্যুত হয়। প্রমাণ অনুচ্ছেদের সাথে আসে না এমন বেশ কয়েকটি ডেটাসেটের জন্য, দুটি রূপ অন্তর্ভুক্ত করা হয়েছে: একটি যেখানে ডেটাসেটগুলি যেমন-ই ব্যবহার করা হয় এবং আরেকটি যেটি অতিরিক্ত প্রমাণ হিসাবে তথ্য পুনরুদ্ধার ব্যবস্থার মাধ্যমে আনা অনুচ্ছেদগুলি ব্যবহার করে, "_ir" ট্যাগগুলির সাথে নির্দেশিত৷

আরও তথ্য এখানে পাওয়া যাবে: https://github.com/allenai/unifiedqa

FeaturesDict({
    'input': string,
    'output': string,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
ইনপুট টেনসর স্ট্রিং
আউটপুট টেনসর স্ট্রিং

unified_qa/ai2_science_elementary (ডিফল্ট কনফিগারেশন)

  • কনফিগার বিবরণ : AI2 বিজ্ঞান প্রশ্ন ডেটাসেট মার্কিন যুক্তরাষ্ট্রে প্রাথমিক এবং মাধ্যমিক স্কুল গ্রেড স্তর জুড়ে শিক্ষার্থীদের মূল্যায়নে ব্যবহৃত প্রশ্নগুলি নিয়ে গঠিত। প্রতিটি প্রশ্ন 4-উপায় মাল্টিপল চয়েস ফরম্যাট এবং এতে একটি ডায়াগ্রাম উপাদান অন্তর্ভুক্ত থাকতে পারে বা নাও থাকতে পারে। এই সেটটি প্রাথমিক বিদ্যালয়ের গ্রেড স্তরের জন্য ব্যবহৃত প্রশ্ন নিয়ে গঠিত।

  • ডাউনলোড সাইজ : 345.59 KiB

  • ডেটাসেটের আকার : 390.02 KiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 542
'train' 623
'validation' 123
  • উদ্ধৃতি :
http://data.allenai.org/ai2-science-questions

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/ai2_science_middle

  • কনফিগার বিবরণ : AI2 বিজ্ঞান প্রশ্ন ডেটাসেট মার্কিন যুক্তরাষ্ট্রে প্রাথমিক এবং মাধ্যমিক স্কুল গ্রেড স্তর জুড়ে শিক্ষার্থীদের মূল্যায়নে ব্যবহৃত প্রশ্নগুলি নিয়ে গঠিত। প্রতিটি প্রশ্ন 4-উপায় মাল্টিপল চয়েস ফরম্যাট এবং এতে একটি ডায়াগ্রাম উপাদান অন্তর্ভুক্ত থাকতে পারে বা নাও থাকতে পারে। এই সেটটি মধ্য বিদ্যালয়ের গ্রেড স্তরের জন্য ব্যবহৃত প্রশ্নগুলি নিয়ে গঠিত।

  • ডাউনলোড 428.41 KiB

  • ডেটাসেটের আকার : 477.40 KiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 679
'train' 605
'validation' 125
  • উদ্ধৃতি :
http://data.allenai.org/ai2-science-questions

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/ambigqa

  • কনফিগারেশনের বিবরণ : AmbigQA হল একটি ওপেন-ডোমেন প্রশ্নের উত্তর দেওয়ার কাজ যার মধ্যে প্রতিটি যুক্তিসঙ্গত উত্তর খুঁজে বের করা, এবং তারপর অস্পষ্টতা সমাধানের জন্য প্রতিটির জন্য প্রশ্নটি পুনর্লিখন করা জড়িত।

  • ডাউনলোড সাইজ : 2.27 MiB

  • ডেটাসেটের আকার : 3.04 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 19,806
'validation' ৫,৬৭৪
  • উদ্ধৃতি :
@inproceedings{min-etal-2020-ambigqa,
    title = "{A}mbig{QA}: Answering Ambiguous Open-domain Questions",
    author = "Min, Sewon  and
      Michael, Julian  and
      Hajishirzi, Hannaneh  and
      Zettlemoyer, Luke",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.emnlp-main.466",
    doi = "10.18653/v1/2020.emnlp-main.466",
    pages = "5783--5797",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_easy

  • কনফিগারেশনের বিবরণ : এই ডেটাসেটে প্রকৃত গ্রেড-স্কুল স্তর, বহু-পছন্দের বিজ্ঞানের প্রশ্ন রয়েছে, যা উন্নত প্রশ্ন-উত্তর গবেষণায় উৎসাহিত করার জন্য একত্রিত করা হয়েছে। ডেটাসেটটিকে একটি চ্যালেঞ্জ সেট এবং একটি সহজ সেটে বিভক্ত করা হয়েছে, যেখানে প্রাক্তনটিতে শুধুমাত্র একটি পুনরুদ্ধার-ভিত্তিক অ্যালগরিদম এবং একটি শব্দ সহ-ঘটনা অ্যালগরিদম উভয়ের দ্বারা ভুল উত্তর দেওয়া প্রশ্ন রয়েছে৷ এই সেটটি "সহজ" প্রশ্ন নিয়ে গঠিত।

  • ডাউনলোড সাইজ : 1.24 MiB

  • ডেটাসেটের আকার : 1.42 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' ২,৩৭৬
'train' 2,251
'validation' 570
  • উদ্ধৃতি :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_easy_dev

  • কনফিগারেশনের বিবরণ : এই ডেটাসেটে প্রকৃত গ্রেড-স্কুল স্তর, বহু-পছন্দের বিজ্ঞানের প্রশ্ন রয়েছে, যা উন্নত প্রশ্ন-উত্তর গবেষণায় উৎসাহিত করার জন্য একত্রিত করা হয়েছে। ডেটাসেটটিকে একটি চ্যালেঞ্জ সেট এবং একটি সহজ সেটে বিভক্ত করা হয়েছে, যেখানে প্রাক্তনটিতে শুধুমাত্র একটি পুনরুদ্ধার-ভিত্তিক অ্যালগরিদম এবং একটি শব্দ সহ-ঘটনা অ্যালগরিদম উভয়ের দ্বারা ভুল উত্তর দেওয়া প্রশ্ন রয়েছে৷ এই সেটটি "সহজ" প্রশ্ন নিয়ে গঠিত।

  • ডাউনলোড সাইজ : 1.24 MiB

  • ডেটাসেটের আকার : 1.42 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' ২,৩৭৬
'train' 2,251
'validation' 570
  • উদ্ধৃতি :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_easy_with_ir

  • কনফিগারেশনের বিবরণ : এই ডেটাসেটে প্রকৃত গ্রেড-স্কুল স্তর, বহু-পছন্দের বিজ্ঞানের প্রশ্ন রয়েছে, যা উন্নত প্রশ্ন-উত্তর গবেষণায় উৎসাহিত করার জন্য একত্রিত করা হয়েছে। ডেটাসেটটিকে একটি চ্যালেঞ্জ সেট এবং একটি সহজ সেটে বিভক্ত করা হয়েছে, যেখানে প্রাক্তনটিতে শুধুমাত্র একটি পুনরুদ্ধার-ভিত্তিক অ্যালগরিদম এবং একটি শব্দ সহ-ঘটনা অ্যালগরিদম উভয়ের দ্বারা ভুল উত্তর দেওয়া প্রশ্ন রয়েছে৷ এই সেটটি "সহজ" প্রশ্ন নিয়ে গঠিত। এই সংস্করণে অতিরিক্ত প্রমাণ হিসাবে তথ্য পুনরুদ্ধার ব্যবস্থার মাধ্যমে আনা অনুচ্ছেদ অন্তর্ভুক্ত রয়েছে।

  • ডাউনলোড সাইজ : 7.00 MiB

  • ডেটাসেটের আকার : 7.17 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' ২,৩৭৬
'train' 2,251
'validation' 570
  • উদ্ধৃতি :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_easy_with_ir_dev

  • কনফিগারেশনের বিবরণ : এই ডেটাসেটে প্রকৃত গ্রেড-স্কুল স্তর, বহু-পছন্দের বিজ্ঞানের প্রশ্ন রয়েছে, যা উন্নত প্রশ্ন-উত্তর গবেষণায় উৎসাহিত করার জন্য একত্রিত করা হয়েছে। ডেটাসেটটিকে একটি চ্যালেঞ্জ সেট এবং একটি সহজ সেটে বিভক্ত করা হয়েছে, যেখানে প্রাক্তনটিতে শুধুমাত্র একটি পুনরুদ্ধার-ভিত্তিক অ্যালগরিদম এবং একটি শব্দ সহ-ঘটনা অ্যালগরিদম উভয়ের দ্বারা ভুল উত্তর দেওয়া প্রশ্ন রয়েছে৷ এই সেটটি "সহজ" প্রশ্ন নিয়ে গঠিত। এই সংস্করণে অতিরিক্ত প্রমাণ হিসাবে তথ্য পুনরুদ্ধার ব্যবস্থার মাধ্যমে আনা অনুচ্ছেদ অন্তর্ভুক্ত রয়েছে।

  • ডাউনলোড সাইজ : 7.00 MiB

  • ডেটাসেটের আকার : 7.17 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' ২,৩৭৬
'train' 2,251
'validation' 570
  • উদ্ধৃতি :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

ইউনিফাইড_কিউএ/আর্ক_হার্ড

  • কনফিগারেশনের বিবরণ : এই ডেটাসেটে প্রকৃত গ্রেড-স্কুল স্তর, বহু-পছন্দের বিজ্ঞানের প্রশ্ন রয়েছে, যা উন্নত প্রশ্ন-উত্তর গবেষণায় উৎসাহিত করার জন্য একত্রিত করা হয়েছে। ডেটাসেটটিকে একটি চ্যালেঞ্জ সেট এবং একটি সহজ সেটে বিভক্ত করা হয়েছে, যেখানে প্রাক্তনটিতে শুধুমাত্র একটি পুনরুদ্ধার-ভিত্তিক অ্যালগরিদম এবং একটি শব্দ সহ-ঘটনা অ্যালগরিদম উভয়ের দ্বারা ভুল উত্তর দেওয়া প্রশ্ন রয়েছে৷ এই সেটটি "কঠিন" প্রশ্ন নিয়ে গঠিত।

  • ডাউনলোড 758.03 KiB

  • ডেটাসেটের আকার : 848.28 KiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 1,172
'train' 1,119
'validation' 299
  • উদ্ধৃতি :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_hard_dev

  • কনফিগারেশনের বিবরণ : এই ডেটাসেটে প্রকৃত গ্রেড-স্কুল স্তর, বহু-পছন্দের বিজ্ঞানের প্রশ্ন রয়েছে, যা উন্নত প্রশ্ন-উত্তর গবেষণায় উৎসাহিত করার জন্য একত্রিত করা হয়েছে। ডেটাসেটটিকে একটি চ্যালেঞ্জ সেট এবং একটি সহজ সেটে বিভক্ত করা হয়েছে, যেখানে প্রাক্তনটিতে শুধুমাত্র একটি পুনরুদ্ধার-ভিত্তিক অ্যালগরিদম এবং একটি শব্দ সহ-ঘটনা অ্যালগরিদম উভয়ের দ্বারা ভুল উত্তর দেওয়া প্রশ্ন রয়েছে৷ এই সেটটি "কঠিন" প্রশ্ন নিয়ে গঠিত।

  • ডাউনলোড 758.03 KiB

  • ডেটাসেটের আকার : 848.28 KiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 1,172
'train' 1,119
'validation' 299
  • উদ্ধৃতি :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_hard_with_ir

  • কনফিগারেশনের বিবরণ : এই ডেটাসেটে প্রকৃত গ্রেড-স্কুল স্তর, বহু-পছন্দের বিজ্ঞানের প্রশ্ন রয়েছে, যা উন্নত প্রশ্ন-উত্তর গবেষণায় উৎসাহিত করার জন্য একত্রিত করা হয়েছে। ডেটাসেটটিকে একটি চ্যালেঞ্জ সেট এবং একটি সহজ সেটে বিভক্ত করা হয়েছে, যেখানে প্রাক্তনটিতে শুধুমাত্র একটি পুনরুদ্ধার-ভিত্তিক অ্যালগরিদম এবং একটি শব্দ সহ-ঘটনা অ্যালগরিদম উভয়ের দ্বারা ভুল উত্তর দেওয়া প্রশ্ন রয়েছে৷ এই সেটটি "কঠিন" প্রশ্ন নিয়ে গঠিত। এই সংস্করণে অতিরিক্ত প্রমাণ হিসাবে তথ্য পুনরুদ্ধার ব্যবস্থার মাধ্যমে আনা অনুচ্ছেদ অন্তর্ভুক্ত রয়েছে।

  • ডাউনলোড সাইজ : 3.53 MiB

  • ডেটাসেটের আকার : 3.62 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 1,172
'train' 1,119
'validation' 299
  • উদ্ধৃতি :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_hard_with_ir_dev

  • কনফিগারেশনের বিবরণ : এই ডেটাসেটে প্রকৃত গ্রেড-স্কুল স্তর, বহু-পছন্দের বিজ্ঞানের প্রশ্ন রয়েছে, যা উন্নত প্রশ্ন-উত্তর গবেষণায় উৎসাহিত করার জন্য একত্রিত করা হয়েছে। ডেটাসেটটিকে একটি চ্যালেঞ্জ সেট এবং একটি সহজ সেটে বিভক্ত করা হয়েছে, যেখানে প্রাক্তনটিতে শুধুমাত্র একটি পুনরুদ্ধার-ভিত্তিক অ্যালগরিদম এবং একটি শব্দ সহ-ঘটনা অ্যালগরিদম উভয়ের দ্বারা ভুল উত্তর দেওয়া প্রশ্ন রয়েছে৷ এই সেটটি "কঠিন" প্রশ্ন নিয়ে গঠিত। এই সংস্করণে অতিরিক্ত প্রমাণ হিসাবে তথ্য পুনরুদ্ধার ব্যবস্থার মাধ্যমে আনা অনুচ্ছেদ অন্তর্ভুক্ত রয়েছে।

  • ডাউনলোড সাইজ : 3.53 MiB

  • ডেটাসেটের আকার : 3.62 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 1,172
'train' 1,119
'validation' 299
  • উদ্ধৃতি :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/boolq

  • কনফিগারেশনের বিবরণ : BoolQ হল হ্যাঁ/না প্রশ্নের জন্য একটি প্রশ্নের উত্তর দেওয়ার ডেটাসেট। এই প্রশ্নগুলি স্বাভাবিকভাবেই ঘটছে ---এগুলি অপ্রস্তুত এবং অনিয়ন্ত্রিত সেটিংসে তৈরি হয়৷ প্রতিটি উদাহরণ হল ঐচ্ছিক অতিরিক্ত প্রসঙ্গ হিসাবে পৃষ্ঠার শিরোনাম সহ (প্রশ্ন, উত্তরণ, উত্তর) এর একটি ট্রিপলেট। পাঠ্য-জোড়া শ্রেণীবিভাগ সেটআপ বিদ্যমান প্রাকৃতিক ভাষা অনুমান কার্যের অনুরূপ।

  • ডাউনলোড সাইজ : 7.77 MiB

  • ডেটাসেটের আকার : 8.20 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 9,427
'validation' 3,270
  • উদ্ধৃতি :
@inproceedings{clark-etal-2019-boolq,
    title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
    author = "Clark, Christopher  and
      Lee, Kenton  and
      Chang, Ming-Wei  and
      Kwiatkowski, Tom  and
      Collins, Michael  and
      Toutanova, Kristina",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1300",
    doi = "10.18653/v1/N19-1300",
    pages = "2924--2936",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/boolq_np

  • কনফিগারেশনের বিবরণ : BoolQ হল হ্যাঁ/না প্রশ্নের জন্য একটি প্রশ্নের উত্তর দেওয়ার ডেটাসেট। এই প্রশ্নগুলি স্বাভাবিকভাবেই ঘটছে ---এগুলি অপ্রস্তুত এবং অনিয়ন্ত্রিত সেটিংসে তৈরি হয়৷ প্রতিটি উদাহরণ হল ঐচ্ছিক অতিরিক্ত প্রসঙ্গ হিসাবে পৃষ্ঠার শিরোনাম সহ (প্রশ্ন, উত্তরণ, উত্তর) এর একটি ট্রিপলেট। পাঠ্য-জোড়া শ্রেণীবিভাগ সেটআপ বিদ্যমান প্রাকৃতিক ভাষা অনুমান কার্যের অনুরূপ। এই সংস্করণটি মূল সংস্করণে প্রাকৃতিক বিভ্রান্তি যোগ করে।

  • ডাউনলোড সাইজ : 10.80 MiB

  • ডেটাসেটের আকার : 11.40 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 9,727
'validation' 7,596
  • উদ্ধৃতি :
@inproceedings{khashabi-etal-2020-bang,
    title = "More Bang for Your Buck: Natural Perturbation for Robust Question Answering",
    author = "Khashabi, Daniel  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.emnlp-main.12",
    doi = "10.18653/v1/2020.emnlp-main.12",
    pages = "163--170",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/commonsenseqa

  • কনফিগার বিবরণ : CommonsenseQA হল একটি নতুন বহু-পছন্দের প্রশ্নের উত্তর দেওয়ার ডেটাসেট যার সঠিক উত্তরের পূর্বাভাস দেওয়ার জন্য বিভিন্ন ধরনের কমনসেন্স জ্ঞান প্রয়োজন। এটিতে একটি সঠিক উত্তর এবং চারটি বিভ্রান্তিকর উত্তর সহ প্রশ্ন রয়েছে।

  • ডাউনলোড সাইজ : 1.79 MiB

  • ডেটাসেটের আকার : 2.19 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 1,140
'train' 9,741
'validation' 1,221
  • উদ্ধৃতি :
@inproceedings{talmor-etal-2019-commonsenseqa,
    title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
    author = "Talmor, Alon  and
      Herzig, Jonathan  and
      Lourie, Nicholas  and
      Berant, Jonathan",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1421",
    doi = "10.18653/v1/N19-1421",
    pages = "4149--4158",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/commonsenseqa_test

  • কনফিগার বিবরণ : CommonsenseQA হল একটি নতুন বহু-পছন্দের প্রশ্নের উত্তর দেওয়ার ডেটাসেট যার সঠিক উত্তরের পূর্বাভাস দেওয়ার জন্য বিভিন্ন ধরনের কমনসেন্স জ্ঞান প্রয়োজন। এটিতে একটি সঠিক উত্তর এবং চারটি বিভ্রান্তিকর উত্তর সহ প্রশ্ন রয়েছে।

  • ডাউনলোড সাইজ : 1.79 MiB

  • ডেটাসেটের আকার : 2.19 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 1,140
'train' 9,741
'validation' 1,221
  • উদ্ধৃতি :
@inproceedings{talmor-etal-2019-commonsenseqa,
    title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
    author = "Talmor, Alon  and
      Herzig, Jonathan  and
      Lourie, Nicholas  and
      Berant, Jonathan",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1421",
    doi = "10.18653/v1/N19-1421",
    pages = "4149--4158",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_boolq

  • কনফিগারেশনের বিবরণ : BoolQ হল হ্যাঁ/না প্রশ্নের জন্য একটি প্রশ্নের উত্তর দেওয়ার ডেটাসেট। এই প্রশ্নগুলি স্বাভাবিকভাবেই ঘটছে ---এগুলি অপ্রস্তুত এবং অনিয়ন্ত্রিত সেটিংসে তৈরি হয়৷ প্রতিটি উদাহরণ হল ঐচ্ছিক অতিরিক্ত প্রসঙ্গ হিসাবে পৃষ্ঠার শিরোনাম সহ (প্রশ্ন, উত্তরণ, উত্তর) এর একটি ট্রিপলেট। পাঠ্য-জোড়া শ্রেণীবিভাগ সেটআপ বিদ্যমান প্রাকৃতিক ভাষা অনুমান কার্যের অনুরূপ। এই সংস্করণটি কনট্রাস্ট সেট ব্যবহার করে। এই মূল্যায়ন সেটগুলি হল বিশেষজ্ঞ-উত্পন্ন বিভ্রান্তি যা মূল ডেটাসেটের সাধারণ প্যাটার্ন থেকে বিচ্যুত হয়।

  • ডাউনলোড 438.51 KiB

  • ডেটাসেটের আকার : 462.35 KiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 340
'validation' 340
  • উদ্ধৃতি :
@inproceedings{clark-etal-2019-boolq,
    title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
    author = "Clark, Christopher  and
      Lee, Kenton  and
      Chang, Ming-Wei  and
      Kwiatkowski, Tom  and
      Collins, Michael  and
      Toutanova, Kristina",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1300",
    doi = "10.18653/v1/N19-1300",
    pages = "2924--2936",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_drop

  • কনফিগারেশনের বিবরণ : DROP হল একটি ক্রাউডসোর্সড, প্রতিকূলভাবে তৈরি QA বেঞ্চমার্ক, যেখানে একটি সিস্টেমকে একটি প্রশ্নের রেফারেন্সের সমাধান করতে হবে, সম্ভবত একাধিক ইনপুট অবস্থানে, এবং সেগুলির উপর পৃথক ক্রিয়াকলাপ সম্পাদন করতে হবে (যেমন সংযোজন, গণনা বা সাজানো)। এই ক্রিয়াকলাপগুলির জন্য পূর্ববর্তী ডেটাসেটের জন্য যা প্রয়োজনীয় ছিল তার চেয়ে অনুচ্ছেদের বিষয়বস্তু সম্পর্কে অনেক বেশি বিস্তৃত বোঝার প্রয়োজন। এই সংস্করণটি কনট্রাস্ট সেট ব্যবহার করে। এই মূল্যায়ন সেটগুলি হল বিশেষজ্ঞ-উত্পন্ন বিভ্রান্তি যা মূল ডেটাসেটের সাধারণ প্যাটার্ন থেকে বিচ্যুত হয়।

  • ডাউনলোড সাইজ : 2.20 MiB

  • ডেটাসেটের আকার : 2.26 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 947
'validation' 947
  • উদ্ধৃতি :
@inproceedings{dua-etal-2019-drop,
    title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
    author = "Dua, Dheeru  and
      Wang, Yizhong  and
      Dasigi, Pradeep  and
      Stanovsky, Gabriel  and
      Singh, Sameer  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1246",
    doi = "10.18653/v1/N19-1246",
    pages = "2368--2378",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_quoref

  • কনফিগারেশনের বিবরণ : এই ডেটাসেটটি বোঝার সিস্টেম পড়ার কোফারেনশিয়াল যুক্তি ক্ষমতা পরীক্ষা করে। উইকিপিডিয়া থেকে অনুচ্ছেদের উপর প্রশ্ন সম্বলিত এই স্প্যান-নির্বাচন বেঞ্চমার্কে, প্রশ্নের উত্তর দেওয়ার জন্য অনুচ্ছেদে উপযুক্ত স্প্যান (গুলি) নির্বাচন করার আগে একটি সিস্টেমকে অবশ্যই কঠিন কোরফারেন্সগুলি সমাধান করতে হবে। এই সংস্করণটি কনট্রাস্ট সেট ব্যবহার করে। এই মূল্যায়ন সেটগুলি হল বিশেষজ্ঞ-উত্পন্ন বিভ্রান্তি যা মূল ডেটাসেটের সাধারণ প্যাটার্ন থেকে বিচ্যুত হয়।

  • ডাউনলোড সাইজ : 2.60 MiB

  • ডেটাসেটের আকার : 2.65 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 700
'validation' 700
  • উদ্ধৃতি :
@inproceedings{dasigi-etal-2019-quoref,
    title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
    author = "Dasigi, Pradeep  and
      Liu, Nelson F.  and
      Marasovi{'c}, Ana  and
      Smith, Noah A.  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1606",
    doi = "10.18653/v1/D19-1606",
    pages = "5925--5932",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_ropes

  • কনফিগার বিবরণ : এই ডেটাসেটটি পাঠ্যের উত্তরণ থেকে একটি নতুন পরিস্থিতিতে জ্ঞান প্রয়োগ করার জন্য একটি সিস্টেমের ক্ষমতা পরীক্ষা করে। একটি সিস্টেমে কার্যকারণ বা গুণগত সম্পর্ক(গুলি) সম্বলিত একটি পটভূমি উত্তরণ উপস্থাপন করা হয় (যেমন, "প্রাণী পরাগায়নকারীরা ফুলে নিষিক্তকরণের কার্যকারিতা বাড়ায়"), একটি অভিনব পরিস্থিতি যা এই পটভূমিকে ব্যবহার করে, এবং সম্পর্কের প্রভাব সম্পর্কে যুক্তির প্রয়োজন হয় এমন প্রশ্ন পরিস্থিতির প্রেক্ষাপটে পটভূমি উত্তরণ। এই সংস্করণটি কনট্রাস্ট সেট ব্যবহার করে। এই মূল্যায়ন সেটগুলি হল বিশেষজ্ঞ-উত্পন্ন বিভ্রান্তি যা মূল ডেটাসেটের সাধারণ প্যাটার্ন থেকে বিচ্যুত হয়।

  • ডাউনলোড সাইজ : 1.97 MiB

  • ডেটাসেটের আকার : 2.04 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 974
'validation' 974
  • উদ্ধৃতি :
@inproceedings{lin-etal-2019-reasoning,
    title = "Reasoning Over Paragraph Effects in Situations",
    author = "Lin, Kevin  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5808",
    doi = "10.18653/v1/D19-5808",
    pages = "58--62",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

ইউনিফাইড_কিউএ/ড্রপ

  • কনফিগারেশনের বিবরণ : DROP হল একটি ক্রাউডসোর্সড, প্রতিকূলভাবে তৈরি QA বেঞ্চমার্ক, যেখানে একটি সিস্টেমকে একটি প্রশ্নের রেফারেন্সের সমাধান করতে হবে, সম্ভবত একাধিক ইনপুট অবস্থানে, এবং সেগুলির উপর পৃথক ক্রিয়াকলাপ সম্পাদন করতে হবে (যেমন সংযোজন, গণনা বা সাজানো)। এই ক্রিয়াকলাপগুলির জন্য পূর্ববর্তী ডেটাসেটের জন্য যা প্রয়োজনীয় ছিল তার চেয়ে অনুচ্ছেদের বিষয়বস্তু সম্পর্কে অনেক বেশি বিস্তৃত বোঝার প্রয়োজন।

  • ডাউনলোড সাইজ : 105.18 MiB

  • ডেটাসেটের আকার : 108.16 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 77,399
'validation' 9,536
  • উদ্ধৃতি :
@inproceedings{dua-etal-2019-drop,
    title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
    author = "Dua, Dheeru  and
      Wang, Yizhong  and
      Dasigi, Pradeep  and
      Stanovsky, Gabriel  and
      Singh, Sameer  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1246",
    doi = "10.18653/v1/N19-1246",
    pages = "2368--2378",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/mctest

  • কনফিগারেশনের বিবরণ : MCTest-এর জন্য মেশিনের প্রয়োজন কাল্পনিক গল্প সম্পর্কে একাধিক-পছন্দের পাঠ বোঝার প্রশ্নের উত্তর দেওয়ার জন্য, সরাসরি ওপেন-ডোমেন মেশিন বোঝার উচ্চ-স্তরের লক্ষ্যকে মোকাবেলা করা। পড়ার বোধগম্যতা উন্নত ক্ষমতা পরীক্ষা করতে পারে যেমন কার্যকারণ যুক্তি এবং বিশ্বকে বোঝার, তবুও, বহু-পছন্দের দ্বারা, এখনও একটি স্পষ্ট মেট্রিক প্রদান করে। কাল্পনিক হওয়ার কারণে, উত্তর সাধারণত শুধুমাত্র গল্পেই পাওয়া যায়। গল্প এবং প্রশ্নগুলিও সাবধানে সীমাবদ্ধ যেগুলি একটি ছোট শিশু বুঝতে পারে, কাজের জন্য প্রয়োজনীয় বিশ্ব জ্ঞান হ্রাস করে।

  • ডাউনলোড সাইজ : 2.14 MiB

  • ডেটাসেটের আকার : 2.20 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1,480
'validation' 320
  • উদ্ধৃতি :
@inproceedings{richardson-etal-2013-mctest,
    title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
    author = "Richardson, Matthew  and
      Burges, Christopher J.C.  and
      Renshaw, Erin",
    booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
    month = oct,
    year = "2013",
    address = "Seattle, Washington, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D13-1020",
    pages = "193--203",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/mctest_corrected_the_separator

  • কনফিগারেশনের বিবরণ : MCTest-এর জন্য মেশিনের প্রয়োজন কাল্পনিক গল্প সম্পর্কে একাধিক-পছন্দের পাঠ বোঝার প্রশ্নের উত্তর দেওয়ার জন্য, সরাসরি ওপেন-ডোমেন মেশিন বোঝার উচ্চ-স্তরের লক্ষ্যকে মোকাবেলা করা। পড়ার বোধগম্যতা উন্নত ক্ষমতা পরীক্ষা করতে পারে যেমন কার্যকারণ যুক্তি এবং বিশ্বকে বোঝার, তবুও, বহু-পছন্দের দ্বারা, এখনও একটি স্পষ্ট মেট্রিক প্রদান করে। কাল্পনিক হওয়ার কারণে, উত্তর সাধারণত শুধুমাত্র গল্পেই পাওয়া যায়। গল্প এবং প্রশ্নগুলিও সাবধানে সীমাবদ্ধ যেগুলি একটি ছোট শিশু বুঝতে পারে, কাজের জন্য প্রয়োজনীয় বিশ্ব জ্ঞান হ্রাস করে।

  • ডাউনলোড আকার : 2.15 MiB

  • ডেটাসেটের আকার : 2.21 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1,480
'validation' 320
  • উদ্ধৃতি :
@inproceedings{richardson-etal-2013-mctest,
    title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
    author = "Richardson, Matthew  and
      Burges, Christopher J.C.  and
      Renshaw, Erin",
    booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
    month = oct,
    year = "2013",
    address = "Seattle, Washington, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D13-1020",
    pages = "193--203",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/multirc

  • কনফিগারেশনের বিবরণ : মাল্টিআরসি হল একটি রিডিং কম্প্রিহেনশন চ্যালেঞ্জ যেখানে একাধিক বাক্য থেকে অ্যাকাউন্টের তথ্য বিবেচনা করে প্রশ্নের উত্তর দেওয়া যেতে পারে। এই চ্যালেঞ্জের জন্য প্রশ্ন এবং উত্তর চাওয়া হয়েছিল এবং একটি 4-পদক্ষেপ ক্রাউডসোর্সিং পরীক্ষার মাধ্যমে যাচাই করা হয়েছিল। ডেটাসেটে 7টি ভিন্ন ডোমেন (প্রাথমিক স্কুল বিজ্ঞান, সংবাদ, ভ্রমণ নির্দেশিকা, কল্পকাহিনী, ইত্যাদি) অনুচ্ছেদের জন্য প্রশ্ন রয়েছে যা পাঠ্য এবং প্রশ্নের শব্দে ভাষাগত বৈচিত্র্য আনে।

  • ডাউনলোড 897.09 KiB

  • ডেটাসেটের আকার : 918.42 KiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 312
'validation' 312
  • উদ্ধৃতি :
@inproceedings{khashabi-etal-2018-looking,
    title = "Looking Beyond the Surface: A Challenge Set for Reading Comprehension over Multiple Sentences",
    author = "Khashabi, Daniel  and
      Chaturvedi, Snigdha  and
      Roth, Michael  and
      Upadhyay, Shyam  and
      Roth, Dan",
    booktitle = "Proceedings of the 2018 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)",
    month = jun,
    year = "2018",
    address = "New Orleans, Louisiana",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N18-1023",
    doi = "10.18653/v1/N18-1023",
    pages = "252--262",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/ narrativeqa

  • কনফিগারেশনের বিবরণ : NarrativeQA হল গল্প এবং সংশ্লিষ্ট প্রশ্নগুলির একটি ইংরেজি-ভাষা ডেটাসেট, বিশেষ করে দীর্ঘ নথিতে পড়ার বোঝার পরীক্ষা করার জন্য ডিজাইন করা হয়েছে।

  • ডাউনলোড সাইজ : 308.28 MiB

  • ডেটাসেটের আকার : 311.22 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 21,114
'train' 65,494
'validation' 6,922
  • উদ্ধৃতি :
@article{kocisky-etal-2018-narrativeqa,
    title = "The {N}arrative{QA} Reading Comprehension Challenge",
    author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} }  and
      Schwarz, Jonathan  and
      Blunsom, Phil  and
      Dyer, Chris  and
      Hermann, Karl Moritz  and
      Melis, G{'a}bor  and
      Grefenstette, Edward",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "6",
    year = "2018",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q18-1023",
    doi = "10.1162/tacl_a_00023",
    pages = "317--328",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/narrativeqa_dev

  • কনফিগারেশনের বিবরণ : NarrativeQA হল গল্প এবং সংশ্লিষ্ট প্রশ্নগুলির একটি ইংরেজি-ভাষা ডেটাসেট, বিশেষ করে দীর্ঘ নথিতে পড়ার বোঝার পরীক্ষা করার জন্য ডিজাইন করা হয়েছে।

  • ডাউনলোড সাইজ : 308.28 MiB

  • ডেটাসেটের আকার : 311.22 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 21,114
'train' 65,494
'validation' 6,922
  • উদ্ধৃতি :
@article{kocisky-etal-2018-narrativeqa,
    title = "The {N}arrative{QA} Reading Comprehension Challenge",
    author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} }  and
      Schwarz, Jonathan  and
      Blunsom, Phil  and
      Dyer, Chris  and
      Hermann, Karl Moritz  and
      Melis, G{'a}bor  and
      Grefenstette, Edward",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "6",
    year = "2018",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q18-1023",
    doi = "10.1162/tacl_a_00023",
    pages = "317--328",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

ঐক্যবদ্ধ_qa/প্রাকৃতিক_প্রশ্ন

  • কনফিগারেশনের বিবরণ : NQ কর্পাসে প্রকৃত ব্যবহারকারীদের থেকে প্রশ্ন থাকে, এবং এটির জন্য QA সিস্টেমের প্রয়োজন একটি সম্পূর্ণ উইকিপিডিয়া নিবন্ধ পড়তে এবং বোঝার জন্য যাতে প্রশ্নের উত্তর থাকতে পারে বা নাও থাকতে পারে। প্রকৃত ব্যবহারকারীর প্রশ্ন অন্তর্ভুক্ত করা, এবং উত্তর খোঁজার জন্য সমাধানগুলির একটি সম্পূর্ণ পৃষ্ঠা পড়া উচিত, যার ফলে পূর্বের QA ডেটাসেটের তুলনায় NQ-কে আরও বাস্তবসম্মত এবং চ্যালেঞ্জিং কাজ হতে পারে।

  • ডাউনলোড সাইজ : 6.95 MiB

  • ডেটাসেটের আকার : 9.88 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 96,075
'validation' 2,295
  • উদ্ধৃতি :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/Natural_questions_direct_ans

  • কনফিগারেশনের বিবরণ : NQ কর্পাসে প্রকৃত ব্যবহারকারীদের থেকে প্রশ্ন থাকে, এবং এটির জন্য QA সিস্টেমের প্রয়োজন একটি সম্পূর্ণ উইকিপিডিয়া নিবন্ধ পড়তে এবং বোঝার জন্য যাতে প্রশ্নের উত্তর থাকতে পারে বা নাও থাকতে পারে। প্রকৃত ব্যবহারকারীর প্রশ্ন অন্তর্ভুক্ত করা, এবং উত্তর খোঁজার জন্য সমাধানগুলির একটি সম্পূর্ণ পৃষ্ঠা পড়া উচিত, যার ফলে পূর্বের QA ডেটাসেটের তুলনায় NQ-কে আরও বাস্তবসম্মত এবং চ্যালেঞ্জিং কাজ হতে পারে। এই সংস্করণে সরাসরি-উত্তর প্রশ্ন রয়েছে।

  • ডাউনলোড সাইজ : 6.82 MiB

  • ডেটাসেটের আকার : 10.19 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' ৬,৪৬৮
'train' ৯৬,৬৭৬
'validation' 10,693
  • উদ্ধৃতি :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/Natural_questions_direct_ans_test

  • কনফিগারেশনের বিবরণ : NQ কর্পাসে প্রকৃত ব্যবহারকারীদের থেকে প্রশ্ন থাকে, এবং এটির জন্য QA সিস্টেমের প্রয়োজন একটি সম্পূর্ণ উইকিপিডিয়া নিবন্ধ পড়তে এবং বোঝার জন্য যাতে প্রশ্নের উত্তর থাকতে পারে বা নাও থাকতে পারে। প্রকৃত ব্যবহারকারীর প্রশ্ন অন্তর্ভুক্ত করা, এবং উত্তর খোঁজার জন্য সমাধানগুলির একটি সম্পূর্ণ পৃষ্ঠা পড়া উচিত, যার ফলে পূর্বের QA ডেটাসেটের তুলনায় NQ-কে আরও বাস্তবসম্মত এবং চ্যালেঞ্জিং কাজ হতে পারে। এই সংস্করণে সরাসরি-উত্তর প্রশ্ন রয়েছে।

  • ডাউনলোড সাইজ : 6.82 MiB

  • ডেটাসেটের আকার : 10.19 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' ৬,৪৬৮
'train' ৯৬,৬৭৬
'validation' 10,693
  • উদ্ধৃতি :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/Natural_questions_with_dpr_para

  • কনফিগারেশনের বিবরণ : NQ কর্পাসে প্রকৃত ব্যবহারকারীদের থেকে প্রশ্ন থাকে, এবং এটির জন্য QA সিস্টেমের প্রয়োজন একটি সম্পূর্ণ উইকিপিডিয়া নিবন্ধ পড়তে এবং বোঝার জন্য যাতে প্রশ্নের উত্তর থাকতে পারে বা নাও থাকতে পারে। প্রকৃত ব্যবহারকারীর প্রশ্ন অন্তর্ভুক্ত করা, এবং উত্তর খোঁজার জন্য সমাধানগুলির একটি সম্পূর্ণ পৃষ্ঠা পড়া উচিত, যার ফলে পূর্বের QA ডেটাসেটের তুলনায় NQ-কে আরও বাস্তবসম্মত এবং চ্যালেঞ্জিং কাজ হতে পারে। এই সংস্করণে প্রতিটি প্রশ্ন বাড়ানোর জন্য অতিরিক্ত অনুচ্ছেদ (DPR পুনরুদ্ধার ইঞ্জিন ব্যবহার করে প্রাপ্ত) অন্তর্ভুক্ত রয়েছে।

  • ডাউনলোড আকার : 319.22 MiB

  • ডেটাসেটের আকার : 322.91 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' ৯৬,৬৭৬
'validation' 10,693
  • উদ্ধৃতি :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/Natural_questions_with_dpr_para_test

  • কনফিগারেশনের বিবরণ : NQ কর্পাসে প্রকৃত ব্যবহারকারীদের থেকে প্রশ্ন থাকে, এবং এটির জন্য QA সিস্টেমের প্রয়োজন একটি সম্পূর্ণ উইকিপিডিয়া নিবন্ধ পড়তে এবং বোঝার জন্য যাতে প্রশ্নের উত্তর থাকতে পারে বা নাও থাকতে পারে। প্রকৃত ব্যবহারকারীর প্রশ্ন অন্তর্ভুক্ত করা, এবং উত্তর খোঁজার জন্য সমাধানগুলির একটি সম্পূর্ণ পৃষ্ঠা পড়া উচিত, যার ফলে পূর্বের QA ডেটাসেটের তুলনায় NQ-কে আরও বাস্তবসম্মত এবং চ্যালেঞ্জিং কাজ হতে পারে। এই সংস্করণে প্রতিটি প্রশ্ন বাড়ানোর জন্য অতিরিক্ত অনুচ্ছেদ (DPR পুনরুদ্ধার ইঞ্জিন ব্যবহার করে প্রাপ্ত) অন্তর্ভুক্ত রয়েছে।

  • ডাউনলোডের আকার : 306.94 MiB

  • ডেটাসেটের আকার : 310.48 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'test' ৬,৪৬৮
'train' ৯৬,৬৭৬
  • উদ্ধৃতি :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/newsqa

  • কনফিগারেশনের বিবরণ : NewsQA হল মানুষের তৈরি প্রশ্ন-উত্তর জোড়ার একটি চ্যালেঞ্জিং মেশিন বোঝার ডেটাসেট। ক্রাউডওয়ার্কাররা সিএনএন-এর সংবাদ নিবন্ধগুলির একটি সেটের উপর ভিত্তি করে প্রশ্ন এবং উত্তর সরবরাহ করে, যার উত্তরগুলি সংশ্লিষ্ট নিবন্ধগুলি থেকে পাঠ্যের স্প্যান সমন্বিত থাকে।

  • ডাউনলোড সাইজ : 283.33 MiB

  • ডেটাসেটের আকার : 285.94 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 75,882
'validation' 4,309
  • উদ্ধৃতি :
@inproceedings{trischler-etal-2017-newsqa,
    title = "{N}ews{QA}: A Machine Comprehension Dataset",
    author = "Trischler, Adam  and
      Wang, Tong  and
      Yuan, Xingdi  and
      Harris, Justin  and
      Sordoni, Alessandro  and
      Bachman, Philip  and
      Suleman, Kaheer",
    booktitle = "Proceedings of the 2nd Workshop on Representation Learning for {NLP}",
    month = aug,
    year = "2017",
    address = "Vancouver, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/W17-2623",
    doi = "10.18653/v1/W17-2623",
    pages = "191--200",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa

  • কনফিগারেশনের বিবরণ : OpenBookQA-এর লক্ষ্য হল উন্নত প্রশ্ন-উত্তরকরণে গবেষণাকে উন্নীত করা, উভয় বিষয়ের (একটি খোলা বই হিসাবে সংক্ষিপ্ত গুরুত্বপূর্ণ তথ্য সহ, ডেটাসেট সহ দেওয়া) এবং এটি যে ভাষায় প্রকাশ করা হয়েছে তার গভীরতর উপলব্ধি অনুসন্ধান করা। বিশেষ করে, এটি এমন প্রশ্ন রয়েছে যার জন্য বহু-পদক্ষেপের যুক্তি, অতিরিক্ত সাধারণ এবং সাধারণ জ্ঞানের ব্যবহার এবং সমৃদ্ধ পাঠ্য বোঝার প্রয়োজন। OpenBookQA হল একটি নতুন ধরনের প্রশ্ন-উত্তরকারী ডেটাসেট যা একটি বিষয় সম্পর্কে মানুষের বোঝার মূল্যায়নের জন্য ওপেন বুক পরীক্ষার পর তৈরি করা হয়েছে।

  • ডাউনলোড সাইজ : 942.34 KiB

  • ডেটাসেটের আকার : 1.11 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 500
'train' 4,957
'validation' 500
  • উদ্ধৃতি :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa_dev

  • কনফিগারেশনের বিবরণ : OpenBookQA-এর লক্ষ্য হল উন্নত প্রশ্ন-উত্তরকরণে গবেষণাকে উন্নীত করা, উভয় বিষয়ের (একটি খোলা বই হিসাবে সংক্ষিপ্ত গুরুত্বপূর্ণ তথ্য সহ, ডেটাসেট সহ দেওয়া) এবং এটি যে ভাষায় প্রকাশ করা হয়েছে তার গভীরতর উপলব্ধি অনুসন্ধান করা। বিশেষ করে, এটি এমন প্রশ্ন রয়েছে যার জন্য বহু-পদক্ষেপের যুক্তি, অতিরিক্ত সাধারণ এবং সাধারণ জ্ঞানের ব্যবহার এবং সমৃদ্ধ পাঠ্য বোঝার প্রয়োজন। OpenBookQA হল একটি নতুন ধরনের প্রশ্ন-উত্তরকারী ডেটাসেট যা একটি বিষয় সম্পর্কে মানুষের বোঝার মূল্যায়নের জন্য ওপেন বুক পরীক্ষার পর তৈরি করা হয়েছে।

  • ডাউনলোড সাইজ : 942.34 KiB

  • ডেটাসেটের আকার : 1.11 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 500
'train' 4,957
'validation' 500
  • উদ্ধৃতি :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa_with_ir

  • কনফিগারেশনের বিবরণ : OpenBookQA-এর লক্ষ্য হল উন্নত প্রশ্ন-উত্তরকরণে গবেষণাকে উন্নীত করা, উভয় বিষয়ের (একটি খোলা বই হিসাবে সংক্ষিপ্ত গুরুত্বপূর্ণ তথ্য সহ, ডেটাসেট সহ দেওয়া) এবং এটি যে ভাষায় প্রকাশ করা হয়েছে তার গভীরতর উপলব্ধি অনুসন্ধান করা। বিশেষ করে, এটি এমন প্রশ্ন রয়েছে যার জন্য বহু-পদক্ষেপের যুক্তি, অতিরিক্ত সাধারণ এবং সাধারণ জ্ঞানের ব্যবহার এবং সমৃদ্ধ পাঠ্য বোঝার প্রয়োজন। OpenBookQA হল একটি নতুন ধরনের প্রশ্ন-উত্তরকারী ডেটাসেট যা একটি বিষয় সম্পর্কে মানুষের বোঝার মূল্যায়নের জন্য ওপেন বুক পরীক্ষার পর তৈরি করা হয়েছে। এই সংস্করণে অতিরিক্ত প্রমাণ হিসাবে তথ্য পুনরুদ্ধার ব্যবস্থার মাধ্যমে আনা অনুচ্ছেদ অন্তর্ভুক্ত রয়েছে।

  • ডাউনলোড আকার : 6.08 MiB

  • ডেটাসেটের আকার : 6.28 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 500
'train' 4,957
'validation' 500
  • উদ্ধৃতি :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa_with_ir_dev

  • কনফিগারেশনের বিবরণ : OpenBookQA-এর লক্ষ্য হল উন্নত প্রশ্ন-উত্তরকরণে গবেষণাকে উন্নীত করা, উভয় বিষয়ের (একটি খোলা বই হিসাবে সংক্ষিপ্ত গুরুত্বপূর্ণ তথ্য সহ, ডেটাসেট সহ দেওয়া) এবং এটি যে ভাষায় প্রকাশ করা হয়েছে তার গভীরতর উপলব্ধি অনুসন্ধান করা। বিশেষ করে, এটি এমন প্রশ্ন রয়েছে যার জন্য বহু-পদক্ষেপের যুক্তি, অতিরিক্ত সাধারণ এবং সাধারণ জ্ঞানের ব্যবহার এবং সমৃদ্ধ পাঠ্য বোঝার প্রয়োজন। OpenBookQA হল একটি নতুন ধরনের প্রশ্ন-উত্তরকারী ডেটাসেট যা একটি বিষয় সম্পর্কে মানুষের বোঝার মূল্যায়নের জন্য ওপেন বুক পরীক্ষার পর তৈরি করা হয়েছে। এই সংস্করণে অতিরিক্ত প্রমাণ হিসাবে তথ্য পুনরুদ্ধার ব্যবস্থার মাধ্যমে আনা অনুচ্ছেদ অন্তর্ভুক্ত রয়েছে।

  • ডাউনলোড আকার : 6.08 MiB

  • ডেটাসেটের আকার : 6.28 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 500
'train' 4,957
'validation' 500
  • উদ্ধৃতি :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/physical_iqa

  • কনফিগার বিবরণ : এটি শারীরিক সাধারণ জ্ঞান বোঝার বেঞ্চমার্কিং অগ্রগতির জন্য একটি ডেটাসেট। অন্তর্নিহিত কাজটি হল বহুনির্বাচনী প্রশ্নের উত্তর দেওয়া: একটি প্রশ্ন q এবং দুটি সম্ভাব্য সমাধান s1, s2 দেওয়া হলে, একটি মডেল বা একজন মানুষকে অবশ্যই সবচেয়ে উপযুক্ত সমাধান বেছে নিতে হবে, যার মধ্যে একটি সঠিক। ডেটাসেটটি প্রাত্যহিক পরিস্থিতির উপর দৃষ্টি নিবদ্ধ করে, যেখানে অ্যাটিপিকাল সমাধানের অগ্রাধিকার রয়েছে। ডেটাসেটটি instructables.com দ্বারা অনুপ্রাণিত, যা ব্যবহারকারীদের কীভাবে দৈনন্দিন উপকরণ ব্যবহার করে বস্তু তৈরি, কারুকাজ, বেক বা ম্যানিপুলেট করতে হয় সে সম্পর্কে নির্দেশনা প্রদান করে। অ্যানোটেটরকে শব্দার্থগত বিভ্রান্তি বা বিকল্প পদ্ধতি প্রদান করতে বলা হয় যা অন্যথায় সিনট্যাক্টিক্যালি এবং টপিকভাবে মিল থাকে যাতে শারীরিক জ্ঞান লক্ষ্য করা যায়। AFLite অ্যালগরিদম ব্যবহার করে ডেটাসেটটি আরও মৌলিক শিল্পকর্ম থেকে পরিষ্কার করা হয়।

  • ডাউনলোড আকার : 6.01 MiB

  • ডেটাসেটের আকার : 6.59 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 16,113
'validation' 1,838
  • উদ্ধৃতি :
@inproceedings{bisk2020piqa,
    title={Piqa: Reasoning about physical commonsense in natural language},
    author={Bisk, Yonatan and Zellers, Rowan and Gao, Jianfeng and Choi, Yejin and others},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={7432--7439},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/qasc

  • কনফিগারেশনের বিবরণ : QASC হল একটি প্রশ্ন-উত্তরকারী ডেটাসেট যেখানে বাক্য গঠনের উপর ফোকাস থাকে। এটি গ্রেড স্কুল বিজ্ঞান সম্পর্কে 8-মুখী একাধিক-পছন্দের প্রশ্ন নিয়ে গঠিত, এবং 17M বাক্যের একটি কর্পাস সহ আসে।

  • ডাউনলোড সাইজ : 1.75 MiB

  • ডেটাসেটের আকার : 2.09 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 920
'train' 8,134
'validation' 926
  • উদ্ধৃতি :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/qasc_test

  • কনফিগারেশনের বিবরণ : QASC হল একটি প্রশ্ন-উত্তরকারী ডেটাসেট যেখানে বাক্য গঠনের উপর ফোকাস থাকে। এটি গ্রেড স্কুল বিজ্ঞান সম্পর্কে 8-মুখী একাধিক-পছন্দের প্রশ্ন নিয়ে গঠিত, এবং 17M বাক্যের একটি কর্পাস সহ আসে।

  • ডাউনলোড সাইজ : 1.75 MiB

  • ডেটাসেটের আকার : 2.09 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 920
'train' 8,134
'validation' 926
  • উদ্ধৃতি :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/qasc_with_ir

  • কনফিগারেশনের বিবরণ : QASC হল একটি প্রশ্ন-উত্তরকারী ডেটাসেট যেখানে বাক্য গঠনের উপর ফোকাস থাকে। এটি গ্রেড স্কুল বিজ্ঞান সম্পর্কে 8-মুখী একাধিক-পছন্দের প্রশ্ন নিয়ে গঠিত, এবং 17M বাক্যের একটি কর্পাস সহ আসে। এই সংস্করণে অতিরিক্ত প্রমাণ হিসাবে তথ্য পুনরুদ্ধার ব্যবস্থার মাধ্যমে আনা অনুচ্ছেদ অন্তর্ভুক্ত রয়েছে।

  • ডাউনলোড আকার : 16.95 MiB

  • ডেটাসেটের আকার : 17.30 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 920
'train' 8,134
'validation' 926
  • উদ্ধৃতি :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/qasc_with_ir_test

  • কনফিগারেশনের বিবরণ : QASC হল একটি প্রশ্ন-উত্তরকারী ডেটাসেট যেখানে বাক্য গঠনের উপর ফোকাস থাকে। এটি গ্রেড স্কুল বিজ্ঞান সম্পর্কে 8-মুখী একাধিক-পছন্দের প্রশ্ন নিয়ে গঠিত, এবং 17M বাক্যের একটি কর্পাস সহ আসে। এই সংস্করণে অতিরিক্ত প্রমাণ হিসাবে তথ্য পুনরুদ্ধার ব্যবস্থার মাধ্যমে আনা অনুচ্ছেদ অন্তর্ভুক্ত রয়েছে।

  • ডাউনলোড আকার : 16.95 MiB

  • ডেটাসেটের আকার : 17.30 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 920
'train' 8,134
'validation' 926
  • উদ্ধৃতি :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/quoref

  • কনফিগারেশনের বিবরণ : এই ডেটাসেটটি বোঝার সিস্টেম পড়ার কোফারেনশিয়াল যুক্তি ক্ষমতা পরীক্ষা করে। উইকিপিডিয়া থেকে অনুচ্ছেদের উপর প্রশ্ন সম্বলিত এই স্প্যান-নির্বাচন বেঞ্চমার্কে, প্রশ্নের উত্তর দেওয়ার জন্য অনুচ্ছেদে উপযুক্ত স্প্যান (গুলি) নির্বাচন করার আগে একটি সিস্টেমকে অবশ্যই কঠিন কোরফারেন্সগুলি সমাধান করতে হবে।

  • ডাউনলোড সাইজ : 51.43 MiB

  • ডেটাসেটের আকার : 52.29 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 22,265
'validation' 2,768
  • উদ্ধৃতি :
@inproceedings{dasigi-etal-2019-quoref,
    title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
    author = "Dasigi, Pradeep  and
      Liu, Nelson F.  and
      Marasovi{'c}, Ana  and
      Smith, Noah A.  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1606",
    doi = "10.18653/v1/D19-1606",
    pages = "5925--5932",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/race_string

  • কনফিগারেশনের বিবরণ : রেস হল একটি বড় আকারের রিডিং কম্প্রিহেনশন ডেটাসেট। ডেটাসেটটি চীনের ইংরেজি পরীক্ষা থেকে সংগ্রহ করা হয়েছে, যেটি মাধ্যমিক ও উচ্চ বিদ্যালয়ের শিক্ষার্থীদের জন্য ডিজাইন করা হয়েছে। ডেটাসেটটি মেশিন বোঝার জন্য প্রশিক্ষণ এবং পরীক্ষার সেট হিসাবে পরিবেশন করা যেতে পারে।

  • ডাউনলোড সাইজ : 167.97 MiB

  • ডেটাসেটের আকার : 171.23 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ (পরীক্ষা, বৈধতা), শুধুমাত্র যখন shuffle_files=False (ট্রেন)

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 4,934
'train' ৮৭,৮৬৩
'validation' 4,887
  • উদ্ধৃতি :
@inproceedings{lai-etal-2017-race,
    title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
    author = "Lai, Guokun  and
      Xie, Qizhe  and
      Liu, Hanxiao  and
      Yang, Yiming  and
      Hovy, Eduard",
    booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
    month = sep,
    year = "2017",
    address = "Copenhagen, Denmark",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D17-1082",
    doi = "10.18653/v1/D17-1082",
    pages = "785--794",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/race_string_dev

  • কনফিগারেশনের বিবরণ : রেস হল একটি বড় আকারের রিডিং কম্প্রিহেনশন ডেটাসেট। ডেটাসেটটি চীনের ইংরেজি পরীক্ষা থেকে সংগ্রহ করা হয়েছে, যেটি মাধ্যমিক ও উচ্চ বিদ্যালয়ের শিক্ষার্থীদের জন্য ডিজাইন করা হয়েছে। ডেটাসেটটি মেশিন বোঝার জন্য প্রশিক্ষণ এবং পরীক্ষার সেট হিসাবে পরিবেশন করা যেতে পারে।

  • ডাউনলোড সাইজ : 167.97 MiB

  • ডেটাসেটের আকার : 171.23 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ (পরীক্ষা, বৈধতা), শুধুমাত্র যখন shuffle_files=False (ট্রেন)

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 4,934
'train' ৮৭,৮৬৩
'validation' 4,887
  • উদ্ধৃতি :
@inproceedings{lai-etal-2017-race,
    title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
    author = "Lai, Guokun  and
      Xie, Qizhe  and
      Liu, Hanxiao  and
      Yang, Yiming  and
      Hovy, Eduard",
    booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
    month = sep,
    year = "2017",
    address = "Copenhagen, Denmark",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D17-1082",
    doi = "10.18653/v1/D17-1082",
    pages = "785--794",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/দড়ি

  • কনফিগার বিবরণ : এই ডেটাসেটটি পাঠ্যের উত্তরণ থেকে একটি নতুন পরিস্থিতিতে জ্ঞান প্রয়োগ করার জন্য একটি সিস্টেমের ক্ষমতা পরীক্ষা করে। একটি সিস্টেমে কার্যকারণ বা গুণগত সম্পর্ক(গুলি) সম্বলিত একটি পটভূমি উত্তরণ উপস্থাপন করা হয় (যেমন, "প্রাণী পরাগায়নকারীরা ফুলে নিষিক্তকরণের কার্যকারিতা বাড়ায়"), একটি অভিনব পরিস্থিতি যা এই পটভূমিকে ব্যবহার করে, এবং সম্পর্কের প্রভাব সম্পর্কে যুক্তির প্রয়োজন হয় এমন প্রশ্ন পরিস্থিতির প্রেক্ষাপটে পটভূমি উত্তরণ।

  • ডাউনলোডের আকার : 12.91 MiB

  • ডেটাসেটের আকার : 13.35 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 10,924
'validation' 1,688
  • উদ্ধৃতি :
@inproceedings{lin-etal-2019-reasoning,
    title = "Reasoning Over Paragraph Effects in Situations",
    author = "Lin, Kevin  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5808",
    doi = "10.18653/v1/D19-5808",
    pages = "58--62",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/social_iqa

  • কনফিগার বিবরণ : এটি সামাজিক পরিস্থিতি সম্পর্কে কমনসেন্স যুক্তির জন্য একটি বড় মাপের মাপকাঠি। সামাজিক আইকিউএ বিভিন্ন দৈনন্দিন পরিস্থিতিতে মানসিক এবং সামাজিক বুদ্ধিমত্তা যাচাই করার জন্য একাধিক পছন্দের প্রশ্ন ধারণ করে। ক্রাউডসোর্সিংয়ের মাধ্যমে, সামাজিক মিথস্ক্রিয়া সম্পর্কে সঠিক এবং ভুল উত্তর সহ সাধারণ জ্ঞানের প্রশ্নগুলি সংগ্রহ করা হয়, একটি নতুন কাঠামো ব্যবহার করে যা কর্মীদের ভিন্ন কিন্তু সম্পর্কিত প্রশ্নের সঠিক উত্তর দিতে বলে ভুল উত্তরে শৈলীগত শিল্পকর্মগুলিকে হ্রাস করে।

  • ডাউনলোড সাইজ : 7.08 MiB

  • ডেটাসেটের আকার : 8.22 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 33,410
'validation' 1,954
  • উদ্ধৃতি :
@inproceedings{sap-etal-2019-social,
    title = "Social {IQ}a: Commonsense Reasoning about Social Interactions",
    author = "Sap, Maarten  and
      Rashkin, Hannah  and
      Chen, Derek  and
      Le Bras, Ronan  and
      Choi, Yejin",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1454",
    doi = "10.18653/v1/D19-1454",
    pages = "4463--4473",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/squad1_1

  • কনফিগারেশনের বিবরণ : এটি একটি পঠন বোঝার ডেটাসেট যা উইকিপিডিয়া নিবন্ধগুলির একটি সেটে ভিড় কর্মীদের দ্বারা উত্থাপিত প্রশ্নগুলি নিয়ে গঠিত, যেখানে প্রতিটি প্রশ্নের উত্তর হল সংশ্লিষ্ট পাঠ্যাংশ থেকে পাঠ্যের একটি অংশ।

  • ডাউনলোড সাইজ : 80.62 MiB

  • ডেটাসেটের আকার : 83.99 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' ৮৭,৫১৪
'validation' 10,570
  • উদ্ধৃতি :
@inproceedings{rajpurkar-etal-2016-squad,
    title = "{SQ}u{AD}: 100,000+ Questions for Machine Comprehension of Text",
    author = "Rajpurkar, Pranav  and
      Zhang, Jian  and
      Lopyrev, Konstantin  and
      Liang, Percy",
    booktitle = "Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing",
    month = nov,
    year = "2016",
    address = "Austin, Texas",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D16-1264",
    doi = "10.18653/v1/D16-1264",
    pages = "2383--2392",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/squad2

  • কনফিগারেশনের বিবরণ : এই ডেটাসেটটি মূল স্ট্যানফোর্ড কোয়েশ্চেন অ্যানসারিং ডেটাসেট (SQuAD) ডেটাসেটকে উত্তরদাতাদের অনুরূপ দেখতে ভিড় কর্মীর দ্বারা বিপক্ষভাবে লিখিত উত্তরহীন প্রশ্নের সাথে একত্রিত করে।

  • ডাউনলোড সাইজ : 116.56 MiB

  • ডেটাসেটের আকার : 121.43 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 130,149
'validation' 11,873
  • উদ্ধৃতি :
@inproceedings{rajpurkar-etal-2018-know,
    title = "Know What You Don{'}t Know: Unanswerable Questions for {SQ}u{AD}",
    author = "Rajpurkar, Pranav  and
      Jia, Robin  and
      Liang, Percy",
    booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)",
    month = jul,
    year = "2018",
    address = "Melbourne, Australia",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/P18-2124",
    doi = "10.18653/v1/P18-2124",
    pages = "784--789",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/winogrande_l

  • কনফিগারেশনের বিবরণ : এই ডেটাসেটটি মূল উইনোগ্রাড স্কিমা চ্যালেঞ্জ ডিজাইন দ্বারা অনুপ্রাণিত, কিন্তু ডেটাসেটের স্কেল এবং কঠোরতা উভয়ই উন্নত করার জন্য সামঞ্জস্য করা হয়েছে। ডেটাসেট নির্মাণের মূল ধাপগুলির মধ্যে রয়েছে (1) একটি সাবধানে ডিজাইন করা ক্রাউডসোর্সিং পদ্ধতি, তারপরে (2) একটি উপন্যাস AfLite অ্যালগরিদম ব্যবহার করে পদ্ধতিগত পক্ষপাত হ্রাস যা মেশিন-শনাক্তযোগ্য এম্বেডিং অ্যাসোসিয়েশনগুলিতে মানব-শনাক্তযোগ্য শব্দ সংস্থানগুলিকে সাধারণীকরণ করে৷ বিভিন্ন মাপের প্রশিক্ষণ সেট প্রদান করা হয়. এই সেটটি আকার l এর সাথে মিলে যায়।

  • ডাউনলোড আকার : 1.49 MiB

  • ডেটাসেটের আকার : 1.83 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 10,234
'validation' 1,267
  • উদ্ধৃতি :
@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/winogrande_m

  • কনফিগারেশনের বিবরণ : এই ডেটাসেটটি মূল উইনোগ্রাড স্কিমা চ্যালেঞ্জ ডিজাইন দ্বারা অনুপ্রাণিত, কিন্তু ডেটাসেটের স্কেল এবং কঠোরতা উভয়ই উন্নত করার জন্য সামঞ্জস্য করা হয়েছে। ডেটাসেট নির্মাণের মূল ধাপগুলির মধ্যে রয়েছে (1) একটি সাবধানে ডিজাইন করা ক্রাউডসোর্সিং পদ্ধতি, তারপরে (2) একটি উপন্যাস AfLite অ্যালগরিদম ব্যবহার করে পদ্ধতিগত পক্ষপাত হ্রাস যা মেশিন-শনাক্তযোগ্য এম্বেডিং অ্যাসোসিয়েশনগুলিতে মানব-শনাক্তযোগ্য শব্দ সংস্থানগুলিকে সাধারণীকরণ করে৷ বিভিন্ন মাপের প্রশিক্ষণ সেট প্রদান করা হয়. এই সেটটি আকার m এর সাথে মিলে যায়।

  • ডাউনলোড সাইজ : 507.46 KiB

  • ডেটাসেটের আকার : 623.15 KiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 2,558
'validation' 1,267
  • উদ্ধৃতি :
@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/winogrande_s

  • কনফিগারেশনের বিবরণ : এই ডেটাসেটটি মূল উইনোগ্রাড স্কিমা চ্যালেঞ্জ ডিজাইন দ্বারা অনুপ্রাণিত, কিন্তু ডেটাসেটের স্কেল এবং কঠোরতা উভয়ই উন্নত করার জন্য সামঞ্জস্য করা হয়েছে। ডেটাসেট নির্মাণের মূল ধাপগুলির মধ্যে রয়েছে (1) একটি সাবধানে ডিজাইন করা ক্রাউডসোর্সিং পদ্ধতি, তারপরে (2) একটি উপন্যাস AfLite অ্যালগরিদম ব্যবহার করে পদ্ধতিগত পক্ষপাত হ্রাস যা মেশিন-শনাক্তযোগ্য এম্বেডিং অ্যাসোসিয়েশনগুলিতে মানব-শনাক্তযোগ্য শব্দ সংস্থানগুলিকে সাধারণীকরণ করে৷ বিভিন্ন মাপের প্রশিক্ষণ সেট প্রদান করা হয়. এই সেট আকার s অনুরূপ.

  • ডাউনলোড 479.24 KiB

  • ডেটাসেটের আকার : 590.47 KiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 1,767
'train' 640
'validation' 1,267
  • উদ্ধৃতি :
@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
,

  • বর্ণনা :

ইউনিফাইডকিউএ বেঞ্চমার্কে 20টি প্রধান প্রশ্নের উত্তর (QA) ডেটাসেট রয়েছে (প্রতিটির একাধিক সংস্করণ থাকতে পারে) যা বিভিন্ন ফর্ম্যাটের পাশাপাশি বিভিন্ন জটিল ভাষাগত ঘটনাকে লক্ষ্য করে। এই ডেটাসেটগুলিকে বিভিন্ন ফর্ম্যাট/বিভাগে গোষ্ঠীভুক্ত করা হয়েছে, যার মধ্যে রয়েছে: এক্সট্রাক্টিভ QA, বিমূর্ত QA, বহু-পছন্দের QA এবং হ্যাঁ/না QA৷ উপরন্তু, কন্ট্রাস্ট সেটগুলি বেশ কয়েকটি ডেটাসেটের জন্য ব্যবহার করা হয় ("কনট্রাস্ট সেট " দিয়ে চিহ্নিত)। এই মূল্যায়ন সেটগুলি হল বিশেষজ্ঞ-উত্পন্ন বিভ্রান্তি যা মূল ডেটাসেটের সাধারণ প্যাটার্ন থেকে বিচ্যুত হয়। প্রমাণ অনুচ্ছেদের সাথে আসে না এমন বেশ কয়েকটি ডেটাসেটের জন্য, দুটি রূপ অন্তর্ভুক্ত করা হয়েছে: একটি যেখানে ডেটাসেটগুলি যেমন-ই ব্যবহার করা হয় এবং আরেকটি যেটি অতিরিক্ত প্রমাণ হিসাবে তথ্য পুনরুদ্ধার ব্যবস্থার মাধ্যমে আনা অনুচ্ছেদগুলি ব্যবহার করে, "_ir" ট্যাগগুলির সাথে নির্দেশিত৷

আরও তথ্য এখানে পাওয়া যাবে: https://github.com/allenai/unifiedqa

FeaturesDict({
    'input': string,
    'output': string,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
ইনপুট টেনসর স্ট্রিং
আউটপুট টেনসর স্ট্রিং

unified_qa/ai2_science_elementary (ডিফল্ট কনফিগারেশন)

  • কনফিগার বিবরণ : AI2 বিজ্ঞান প্রশ্ন ডেটাসেট মার্কিন যুক্তরাষ্ট্রে প্রাথমিক এবং মাধ্যমিক স্কুল গ্রেড স্তর জুড়ে শিক্ষার্থীদের মূল্যায়নে ব্যবহৃত প্রশ্নগুলি নিয়ে গঠিত। প্রতিটি প্রশ্ন 4-উপায় মাল্টিপল চয়েস ফরম্যাট এবং এতে একটি ডায়াগ্রাম উপাদান অন্তর্ভুক্ত থাকতে পারে বা নাও থাকতে পারে। এই সেটটি প্রাথমিক বিদ্যালয়ের গ্রেড স্তরের জন্য ব্যবহৃত প্রশ্ন নিয়ে গঠিত।

  • ডাউনলোড সাইজ : 345.59 KiB

  • ডেটাসেটের আকার : 390.02 KiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 542
'train' 623
'validation' 123
  • উদ্ধৃতি :
http://data.allenai.org/ai2-science-questions

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/ai2_science_middle

  • কনফিগার বিবরণ : AI2 বিজ্ঞান প্রশ্ন ডেটাসেট মার্কিন যুক্তরাষ্ট্রে প্রাথমিক এবং মাধ্যমিক স্কুল গ্রেড স্তর জুড়ে শিক্ষার্থীদের মূল্যায়নে ব্যবহৃত প্রশ্নগুলি নিয়ে গঠিত। প্রতিটি প্রশ্ন 4-উপায় মাল্টিপল চয়েস ফরম্যাট এবং এতে একটি ডায়াগ্রাম উপাদান অন্তর্ভুক্ত থাকতে পারে বা নাও থাকতে পারে। এই সেটটি মধ্য বিদ্যালয়ের গ্রেড স্তরের জন্য ব্যবহৃত প্রশ্নগুলি নিয়ে গঠিত।

  • ডাউনলোড 428.41 KiB

  • ডেটাসেটের আকার : 477.40 KiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 679
'train' 605
'validation' 125
  • উদ্ধৃতি :
http://data.allenai.org/ai2-science-questions

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/ambigqa

  • কনফিগারেশনের বিবরণ : AmbigQA হল একটি ওপেন-ডোমেন প্রশ্নের উত্তর দেওয়ার কাজ যার মধ্যে প্রতিটি যুক্তিসঙ্গত উত্তর খুঁজে বের করা, এবং তারপর অস্পষ্টতা সমাধানের জন্য প্রতিটির জন্য প্রশ্নটি পুনর্লিখন করা জড়িত।

  • ডাউনলোড সাইজ : 2.27 MiB

  • ডেটাসেটের আকার : 3.04 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 19,806
'validation' ৫,৬৭৪
  • উদ্ধৃতি :
@inproceedings{min-etal-2020-ambigqa,
    title = "{A}mbig{QA}: Answering Ambiguous Open-domain Questions",
    author = "Min, Sewon  and
      Michael, Julian  and
      Hajishirzi, Hannaneh  and
      Zettlemoyer, Luke",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.emnlp-main.466",
    doi = "10.18653/v1/2020.emnlp-main.466",
    pages = "5783--5797",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_easy

  • কনফিগারেশনের বিবরণ : এই ডেটাসেটে প্রকৃত গ্রেড-স্কুল স্তর, বহু-পছন্দের বিজ্ঞানের প্রশ্ন রয়েছে, যা উন্নত প্রশ্ন-উত্তর গবেষণায় উৎসাহিত করার জন্য একত্রিত করা হয়েছে। ডেটাসেটটিকে একটি চ্যালেঞ্জ সেট এবং একটি সহজ সেটে বিভক্ত করা হয়েছে, যেখানে প্রাক্তনটিতে শুধুমাত্র একটি পুনরুদ্ধার-ভিত্তিক অ্যালগরিদম এবং একটি শব্দ সহ-ঘটনা অ্যালগরিদম উভয়ের দ্বারা ভুল উত্তর দেওয়া প্রশ্ন রয়েছে৷ এই সেটটি "সহজ" প্রশ্ন নিয়ে গঠিত।

  • ডাউনলোড সাইজ : 1.24 MiB

  • ডেটাসেটের আকার : 1.42 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' ২,৩৭৬
'train' 2,251
'validation' 570
  • উদ্ধৃতি :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_easy_dev

  • কনফিগারেশনের বিবরণ : এই ডেটাসেটে প্রকৃত গ্রেড-স্কুল স্তর, বহু-পছন্দের বিজ্ঞানের প্রশ্ন রয়েছে, যা উন্নত প্রশ্ন-উত্তর গবেষণায় উৎসাহিত করার জন্য একত্রিত করা হয়েছে। ডেটাসেটটিকে একটি চ্যালেঞ্জ সেট এবং একটি সহজ সেটে বিভক্ত করা হয়েছে, যেখানে প্রাক্তনটিতে শুধুমাত্র একটি পুনরুদ্ধার-ভিত্তিক অ্যালগরিদম এবং একটি শব্দ সহ-ঘটনা অ্যালগরিদম উভয়ের দ্বারা ভুল উত্তর দেওয়া প্রশ্ন রয়েছে৷ এই সেটটি "সহজ" প্রশ্ন নিয়ে গঠিত।

  • ডাউনলোড সাইজ : 1.24 MiB

  • ডেটাসেটের আকার : 1.42 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' ২,৩৭৬
'train' 2,251
'validation' 570
  • উদ্ধৃতি :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_easy_with_ir

  • কনফিগারেশনের বিবরণ : এই ডেটাসেটে প্রকৃত গ্রেড-স্কুল স্তর, বহু-পছন্দের বিজ্ঞানের প্রশ্ন রয়েছে, যা উন্নত প্রশ্ন-উত্তর গবেষণায় উৎসাহিত করার জন্য একত্রিত করা হয়েছে। ডেটাসেটটিকে একটি চ্যালেঞ্জ সেট এবং একটি সহজ সেটে বিভক্ত করা হয়েছে, যেখানে প্রাক্তনটিতে শুধুমাত্র একটি পুনরুদ্ধার-ভিত্তিক অ্যালগরিদম এবং একটি শব্দ সহ-ঘটনা অ্যালগরিদম উভয়ের দ্বারা ভুল উত্তর দেওয়া প্রশ্ন রয়েছে৷ এই সেটটি "সহজ" প্রশ্ন নিয়ে গঠিত। এই সংস্করণে অতিরিক্ত প্রমাণ হিসাবে তথ্য পুনরুদ্ধার ব্যবস্থার মাধ্যমে আনা অনুচ্ছেদ অন্তর্ভুক্ত রয়েছে।

  • ডাউনলোড সাইজ : 7.00 MiB

  • ডেটাসেটের আকার : 7.17 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' ২,৩৭৬
'train' 2,251
'validation' 570
  • উদ্ধৃতি :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_easy_with_ir_dev

  • কনফিগারেশনের বিবরণ : এই ডেটাসেটে প্রকৃত গ্রেড-স্কুল স্তর, বহু-পছন্দের বিজ্ঞানের প্রশ্ন রয়েছে, যা উন্নত প্রশ্ন-উত্তর গবেষণায় উৎসাহিত করার জন্য একত্রিত করা হয়েছে। ডেটাসেটটিকে একটি চ্যালেঞ্জ সেট এবং একটি সহজ সেটে বিভক্ত করা হয়েছে, যেখানে প্রাক্তনটিতে শুধুমাত্র একটি পুনরুদ্ধার-ভিত্তিক অ্যালগরিদম এবং একটি শব্দ সহ-ঘটনা অ্যালগরিদম উভয়ের দ্বারা ভুল উত্তর দেওয়া প্রশ্ন রয়েছে৷ এই সেটটি "সহজ" প্রশ্ন নিয়ে গঠিত। This version includes paragraphs fetched via an information retrieval system as additional evidence.

  • Download size : 7.00 MiB

  • Dataset size : 7.17 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 2,376
'train' 2,251
'validation' 570
  • উদ্ধৃতি :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_hard

  • Config description : This dataset consists of genuine grade-school level, multiple-choice science questions, assembled to encourage research in advanced question-answering. The dataset is partitioned into a Challenge Set and an Easy Set, where the former contains only questions answered incorrectly by both a retrieval-based algorithm and a word co-occurrence algorithm. This set consists of "hard" questions.

  • Download size : 758.03 KiB

  • Dataset size : 848.28 KiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 1,172
'train' 1,119
'validation' 299
  • উদ্ধৃতি :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_hard_dev

  • Config description : This dataset consists of genuine grade-school level, multiple-choice science questions, assembled to encourage research in advanced question-answering. The dataset is partitioned into a Challenge Set and an Easy Set, where the former contains only questions answered incorrectly by both a retrieval-based algorithm and a word co-occurrence algorithm. This set consists of "hard" questions.

  • Download size : 758.03 KiB

  • Dataset size : 848.28 KiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 1,172
'train' 1,119
'validation' 299
  • উদ্ধৃতি :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_hard_with_ir

  • Config description : This dataset consists of genuine grade-school level, multiple-choice science questions, assembled to encourage research in advanced question-answering. The dataset is partitioned into a Challenge Set and an Easy Set, where the former contains only questions answered incorrectly by both a retrieval-based algorithm and a word co-occurrence algorithm. This set consists of "hard" questions. This version includes paragraphs fetched via an information retrieval system as additional evidence.

  • Download size : 3.53 MiB

  • Dataset size : 3.62 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 1,172
'train' 1,119
'validation' 299
  • উদ্ধৃতি :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_hard_with_ir_dev

  • Config description : This dataset consists of genuine grade-school level, multiple-choice science questions, assembled to encourage research in advanced question-answering. The dataset is partitioned into a Challenge Set and an Easy Set, where the former contains only questions answered incorrectly by both a retrieval-based algorithm and a word co-occurrence algorithm. This set consists of "hard" questions. This version includes paragraphs fetched via an information retrieval system as additional evidence.

  • Download size : 3.53 MiB

  • Dataset size : 3.62 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 1,172
'train' 1,119
'validation' 299
  • উদ্ধৃতি :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/boolq

  • Config description : BoolQ is a question answering dataset for yes/no questions. These questions are naturally occurring ---they are generated in unprompted and unconstrained settings. Each example is a triplet of (question, passage, answer), with the title of the page as optional additional context. The text-pair classification setup is similar to existing natural language inference tasks.

  • Download size : 7.77 MiB

  • Dataset size : 8.20 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 9,427
'validation' 3,270
  • উদ্ধৃতি :
@inproceedings{clark-etal-2019-boolq,
    title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
    author = "Clark, Christopher  and
      Lee, Kenton  and
      Chang, Ming-Wei  and
      Kwiatkowski, Tom  and
      Collins, Michael  and
      Toutanova, Kristina",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1300",
    doi = "10.18653/v1/N19-1300",
    pages = "2924--2936",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/boolq_np

  • Config description : BoolQ is a question answering dataset for yes/no questions. These questions are naturally occurring ---they are generated in unprompted and unconstrained settings. Each example is a triplet of (question, passage, answer), with the title of the page as optional additional context. The text-pair classification setup is similar to existing natural language inference tasks. This version adds natural perturbations to the original version.

  • Download size : 10.80 MiB

  • Dataset size : 11.40 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 9,727
'validation' 7,596
  • উদ্ধৃতি :
@inproceedings{khashabi-etal-2020-bang,
    title = "More Bang for Your Buck: Natural Perturbation for Robust Question Answering",
    author = "Khashabi, Daniel  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.emnlp-main.12",
    doi = "10.18653/v1/2020.emnlp-main.12",
    pages = "163--170",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/commonsenseqa

  • Config description : CommonsenseQA is a new multiple-choice question answering dataset that requires different types of commonsense knowledge to predict the correct answers . It contains questions with one correct answer and four distractor answers.

  • Download size : 1.79 MiB

  • Dataset size : 2.19 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 1,140
'train' 9,741
'validation' 1,221
  • উদ্ধৃতি :
@inproceedings{talmor-etal-2019-commonsenseqa,
    title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
    author = "Talmor, Alon  and
      Herzig, Jonathan  and
      Lourie, Nicholas  and
      Berant, Jonathan",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1421",
    doi = "10.18653/v1/N19-1421",
    pages = "4149--4158",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/commonsenseqa_test

  • Config description : CommonsenseQA is a new multiple-choice question answering dataset that requires different types of commonsense knowledge to predict the correct answers . It contains questions with one correct answer and four distractor answers.

  • Download size : 1.79 MiB

  • Dataset size : 2.19 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 1,140
'train' 9,741
'validation' 1,221
  • উদ্ধৃতি :
@inproceedings{talmor-etal-2019-commonsenseqa,
    title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
    author = "Talmor, Alon  and
      Herzig, Jonathan  and
      Lourie, Nicholas  and
      Berant, Jonathan",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1421",
    doi = "10.18653/v1/N19-1421",
    pages = "4149--4158",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_boolq

  • Config description : BoolQ is a question answering dataset for yes/no questions. These questions are naturally occurring ---they are generated in unprompted and unconstrained settings. Each example is a triplet of (question, passage, answer), with the title of the page as optional additional context. The text-pair classification setup is similar to existing natural language inference tasks. This version uses contrast sets. These evaluation sets are expert-generated perturbations that deviate from the patterns common in the original dataset.

  • Download size : 438.51 KiB

  • Dataset size : 462.35 KiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 340
'validation' 340
  • উদ্ধৃতি :
@inproceedings{clark-etal-2019-boolq,
    title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
    author = "Clark, Christopher  and
      Lee, Kenton  and
      Chang, Ming-Wei  and
      Kwiatkowski, Tom  and
      Collins, Michael  and
      Toutanova, Kristina",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1300",
    doi = "10.18653/v1/N19-1300",
    pages = "2924--2936",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_drop

  • Config description : DROP is a crowdsourced, adversarially-created QA benchmark, in which a system must resolve references in a question, perhaps to multiple input positions, and perform discrete operations over them (such as addition, counting, or sorting). These operations require a much more comprehensive understanding of the content of paragraphs than what was necessary for prior datasets. This version uses contrast sets. These evaluation sets are expert-generated perturbations that deviate from the patterns common in the original dataset.

  • Download size : 2.20 MiB

  • Dataset size : 2.26 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 947
'validation' 947
  • উদ্ধৃতি :
@inproceedings{dua-etal-2019-drop,
    title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
    author = "Dua, Dheeru  and
      Wang, Yizhong  and
      Dasigi, Pradeep  and
      Stanovsky, Gabriel  and
      Singh, Sameer  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1246",
    doi = "10.18653/v1/N19-1246",
    pages = "2368--2378",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_quoref

  • Config description : This dataset tests the coreferential reasoning capability of reading comprehension systems. In this span-selection benchmark containing questions over paragraphs from Wikipedia, a system must resolve hard coreferences before selecting the appropriate span(s) in the paragraphs for answering questions. This version uses contrast sets. These evaluation sets are expert-generated perturbations that deviate from the patterns common in the original dataset.

  • Download size : 2.60 MiB

  • Dataset size : 2.65 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 700
'validation' 700
  • উদ্ধৃতি :
@inproceedings{dasigi-etal-2019-quoref,
    title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
    author = "Dasigi, Pradeep  and
      Liu, Nelson F.  and
      Marasovi{'c}, Ana  and
      Smith, Noah A.  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1606",
    doi = "10.18653/v1/D19-1606",
    pages = "5925--5932",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_ropes

  • Config description : This dataset tests a system's ability to apply knowledge from a passage of text to a new situation. A system is presented a background passage containing a causal or qualitative relation(s) (eg, "animal pollinators increase efficiency of fertilization in flowers"), a novel situation that uses this background, and questions that require reasoning about effects of the relationships in the background passage in the context of the situation. This version uses contrast sets. These evaluation sets are expert-generated perturbations that deviate from the patterns common in the original dataset.

  • Download size : 1.97 MiB

  • Dataset size : 2.04 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 974
'validation' 974
  • উদ্ধৃতি :
@inproceedings{lin-etal-2019-reasoning,
    title = "Reasoning Over Paragraph Effects in Situations",
    author = "Lin, Kevin  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5808",
    doi = "10.18653/v1/D19-5808",
    pages = "58--62",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/drop

  • Config description : DROP is a crowdsourced, adversarially-created QA benchmark, in which a system must resolve references in a question, perhaps to multiple input positions, and perform discrete operations over them (such as addition, counting, or sorting). These operations require a much more comprehensive understanding of the content of paragraphs than what was necessary for prior datasets.

  • Download size : 105.18 MiB

  • Dataset size : 108.16 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 77,399
'validation' 9,536
  • উদ্ধৃতি :
@inproceedings{dua-etal-2019-drop,
    title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
    author = "Dua, Dheeru  and
      Wang, Yizhong  and
      Dasigi, Pradeep  and
      Stanovsky, Gabriel  and
      Singh, Sameer  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1246",
    doi = "10.18653/v1/N19-1246",
    pages = "2368--2378",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/mctest

  • Config description : MCTest requires machines to answer multiple-choice reading comprehension questions about fictional stories, directly tackling the high-level goal of open-domain machine comprehension. Reading comprehension can test advanced abilities such as causal reasoning and understanding the world, yet, by being multiple-choice, still provide a clear metric. By being fictional, the answer typically can be found only in the story itself. The stories and questions are also carefully limited to those a young child would understand, reducing the world knowledge that is required for the task.

  • Download size : 2.14 MiB

  • Dataset size : 2.20 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1,480
'validation' 320
  • উদ্ধৃতি :
@inproceedings{richardson-etal-2013-mctest,
    title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
    author = "Richardson, Matthew  and
      Burges, Christopher J.C.  and
      Renshaw, Erin",
    booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
    month = oct,
    year = "2013",
    address = "Seattle, Washington, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D13-1020",
    pages = "193--203",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/mctest_corrected_the_separator

  • Config description : MCTest requires machines to answer multiple-choice reading comprehension questions about fictional stories, directly tackling the high-level goal of open-domain machine comprehension. Reading comprehension can test advanced abilities such as causal reasoning and understanding the world, yet, by being multiple-choice, still provide a clear metric. By being fictional, the answer typically can be found only in the story itself. The stories and questions are also carefully limited to those a young child would understand, reducing the world knowledge that is required for the task.

  • Download size : 2.15 MiB

  • Dataset size : 2.21 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1,480
'validation' 320
  • উদ্ধৃতি :
@inproceedings{richardson-etal-2013-mctest,
    title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
    author = "Richardson, Matthew  and
      Burges, Christopher J.C.  and
      Renshaw, Erin",
    booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
    month = oct,
    year = "2013",
    address = "Seattle, Washington, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D13-1020",
    pages = "193--203",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/multirc

  • Config description : MultiRC is a reading comprehension challenge in which questions can only be answered by taking into account information from multiple sentences. Questions and answers for this challenge were solicited and verified through a 4-step crowdsourcing experiment. The dataset contains questions for paragraphs across 7 different domains ( elementary school science, news, travel guides, fiction stories, etc) bringing in linguistic diversity to the texts and to the questions wordings.

  • Download size : 897.09 KiB

  • Dataset size : 918.42 KiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 312
'validation' 312
  • উদ্ধৃতি :
@inproceedings{khashabi-etal-2018-looking,
    title = "Looking Beyond the Surface: A Challenge Set for Reading Comprehension over Multiple Sentences",
    author = "Khashabi, Daniel  and
      Chaturvedi, Snigdha  and
      Roth, Michael  and
      Upadhyay, Shyam  and
      Roth, Dan",
    booktitle = "Proceedings of the 2018 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)",
    month = jun,
    year = "2018",
    address = "New Orleans, Louisiana",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N18-1023",
    doi = "10.18653/v1/N18-1023",
    pages = "252--262",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/narrativeqa

  • Config description : NarrativeQA is an English-lanaguage dataset of stories and corresponding questions designed to test reading comprehension, especially on long documents.

  • Download size : 308.28 MiB

  • Dataset size : 311.22 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 21,114
'train' 65,494
'validation' 6,922
  • উদ্ধৃতি :
@article{kocisky-etal-2018-narrativeqa,
    title = "The {N}arrative{QA} Reading Comprehension Challenge",
    author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} }  and
      Schwarz, Jonathan  and
      Blunsom, Phil  and
      Dyer, Chris  and
      Hermann, Karl Moritz  and
      Melis, G{'a}bor  and
      Grefenstette, Edward",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "6",
    year = "2018",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q18-1023",
    doi = "10.1162/tacl_a_00023",
    pages = "317--328",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/narrativeqa_dev

  • Config description : NarrativeQA is an English-lanaguage dataset of stories and corresponding questions designed to test reading comprehension, especially on long documents.

  • Download size : 308.28 MiB

  • Dataset size : 311.22 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 21,114
'train' 65,494
'validation' 6,922
  • উদ্ধৃতি :
@article{kocisky-etal-2018-narrativeqa,
    title = "The {N}arrative{QA} Reading Comprehension Challenge",
    author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} }  and
      Schwarz, Jonathan  and
      Blunsom, Phil  and
      Dyer, Chris  and
      Hermann, Karl Moritz  and
      Melis, G{'a}bor  and
      Grefenstette, Edward",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "6",
    year = "2018",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q18-1023",
    doi = "10.1162/tacl_a_00023",
    pages = "317--328",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/natural_questions

  • Config description : The NQ corpus contains questions from real users, and it requires QA systems to read and comprehend an entire Wikipedia article that may or may not contain the answer to the question. The inclusion of real user questions, and the requirement that solutions should read an entire page to find the answer, cause NQ to be a more realistic and challenging task than prior QA datasets.

  • Download size : 6.95 MiB

  • Dataset size : 9.88 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 96,075
'validation' 2,295
  • উদ্ধৃতি :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/natural_questions_direct_ans

  • Config description : The NQ corpus contains questions from real users, and it requires QA systems to read and comprehend an entire Wikipedia article that may or may not contain the answer to the question. The inclusion of real user questions, and the requirement that solutions should read an entire page to find the answer, cause NQ to be a more realistic and challenging task than prior QA datasets. This version consists of direct-answer questions.

  • Download size : 6.82 MiB

  • Dataset size : 10.19 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 6,468
'train' 96,676
'validation' 10,693
  • উদ্ধৃতি :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/natural_questions_direct_ans_test

  • Config description : The NQ corpus contains questions from real users, and it requires QA systems to read and comprehend an entire Wikipedia article that may or may not contain the answer to the question. The inclusion of real user questions, and the requirement that solutions should read an entire page to find the answer, cause NQ to be a more realistic and challenging task than prior QA datasets. This version consists of direct-answer questions.

  • Download size : 6.82 MiB

  • Dataset size : 10.19 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 6,468
'train' 96,676
'validation' 10,693
  • উদ্ধৃতি :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/natural_questions_with_dpr_para

  • Config description : The NQ corpus contains questions from real users, and it requires QA systems to read and comprehend an entire Wikipedia article that may or may not contain the answer to the question. The inclusion of real user questions, and the requirement that solutions should read an entire page to find the answer, cause NQ to be a more realistic and challenging task than prior QA datasets. This version includes additional paragraphs (obtained using the DPR retrieval engine) to augment each question.

  • Download size : 319.22 MiB

  • Dataset size : 322.91 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 96,676
'validation' 10,693
  • উদ্ধৃতি :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/natural_questions_with_dpr_para_test

  • Config description : The NQ corpus contains questions from real users, and it requires QA systems to read and comprehend an entire Wikipedia article that may or may not contain the answer to the question. The inclusion of real user questions, and the requirement that solutions should read an entire page to find the answer, cause NQ to be a more realistic and challenging task than prior QA datasets. This version includes additional paragraphs (obtained using the DPR retrieval engine) to augment each question.

  • Download size : 306.94 MiB

  • Dataset size : 310.48 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 6,468
'train' 96,676
  • উদ্ধৃতি :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/newsqa

  • Config description : NewsQA is a challenging machine comprehension dataset of human-generated question-answer pairs. Crowdworkers supply questions and answers based on a set of news articles from CNN, with answers consisting of spans of text from the corresponding articles.

  • Download size : 283.33 MiB

  • Dataset size : 285.94 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 75,882
'validation' 4,309
  • উদ্ধৃতি :
@inproceedings{trischler-etal-2017-newsqa,
    title = "{N}ews{QA}: A Machine Comprehension Dataset",
    author = "Trischler, Adam  and
      Wang, Tong  and
      Yuan, Xingdi  and
      Harris, Justin  and
      Sordoni, Alessandro  and
      Bachman, Philip  and
      Suleman, Kaheer",
    booktitle = "Proceedings of the 2nd Workshop on Representation Learning for {NLP}",
    month = aug,
    year = "2017",
    address = "Vancouver, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/W17-2623",
    doi = "10.18653/v1/W17-2623",
    pages = "191--200",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa

  • Config description : OpenBookQA aims to promote research in advanced question-answering, probing a deeper understanding of both the topic (with salient facts summarized as an open book, also provided with the dataset) and the language it is expressed in. In particular, it contains questions that require multi-step reasoning, use of additional common and commonsense knowledge, and rich text comprehension. OpenBookQA is a new kind of question-answering dataset modeled after open book exams for assessing human understanding of a subject.

  • Download size : 942.34 KiB

  • Dataset size : 1.11 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 500
'train' 4,957
'validation' 500
  • উদ্ধৃতি :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa_dev

  • Config description : OpenBookQA aims to promote research in advanced question-answering, probing a deeper understanding of both the topic (with salient facts summarized as an open book, also provided with the dataset) and the language it is expressed in. In particular, it contains questions that require multi-step reasoning, use of additional common and commonsense knowledge, and rich text comprehension. OpenBookQA is a new kind of question-answering dataset modeled after open book exams for assessing human understanding of a subject.

  • Download size : 942.34 KiB

  • Dataset size : 1.11 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 500
'train' 4,957
'validation' 500
  • উদ্ধৃতি :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa_with_ir

  • Config description : OpenBookQA aims to promote research in advanced question-answering, probing a deeper understanding of both the topic (with salient facts summarized as an open book, also provided with the dataset) and the language it is expressed in. In particular, it contains questions that require multi-step reasoning, use of additional common and commonsense knowledge, and rich text comprehension. OpenBookQA is a new kind of question-answering dataset modeled after open book exams for assessing human understanding of a subject. This version includes paragraphs fetched via an information retrieval system as additional evidence.

  • Download size : 6.08 MiB

  • Dataset size : 6.28 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 500
'train' 4,957
'validation' 500
  • উদ্ধৃতি :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa_with_ir_dev

  • Config description : OpenBookQA aims to promote research in advanced question-answering, probing a deeper understanding of both the topic (with salient facts summarized as an open book, also provided with the dataset) and the language it is expressed in. In particular, it contains questions that require multi-step reasoning, use of additional common and commonsense knowledge, and rich text comprehension. OpenBookQA is a new kind of question-answering dataset modeled after open book exams for assessing human understanding of a subject. This version includes paragraphs fetched via an information retrieval system as additional evidence.

  • Download size : 6.08 MiB

  • Dataset size : 6.28 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 500
'train' 4,957
'validation' 500
  • উদ্ধৃতি :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/physical_iqa

  • Config description : This is a dataset for benchmarking progress in physical commonsense understanding. The underlying task is multiple choice question answering: given a question q and two possible solutions s1, s2, a model or a human must choose the most appropriate solution, of which exactly one is correct. The dataset focuses on everyday situations with a preference for atypical solutions. The dataset is inspired by instructables.com, which provides users with instructions on how to build, craft, bake, or manipulate objects using everyday materials. Annotators are asked to provide semantic perturbations or alternative approaches which are otherwise syntactically and topically similar to ensure physical knowledge is targeted. The dataset is further cleaned of basic artifacts using the AFLite algorithm.

  • Download size : 6.01 MiB

  • Dataset size : 6.59 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 16,113
'validation' 1,838
  • উদ্ধৃতি :
@inproceedings{bisk2020piqa,
    title={Piqa: Reasoning about physical commonsense in natural language},
    author={Bisk, Yonatan and Zellers, Rowan and Gao, Jianfeng and Choi, Yejin and others},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={7432--7439},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/qasc

  • Config description : QASC is a question-answering dataset with a focus on sentence composition. It consists of 8-way multiple-choice questions about grade school science, and comes with a corpus of 17M sentences.

  • Download size : 1.75 MiB

  • Dataset size : 2.09 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 920
'train' 8,134
'validation' 926
  • উদ্ধৃতি :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/qasc_test

  • Config description : QASC is a question-answering dataset with a focus on sentence composition. It consists of 8-way multiple-choice questions about grade school science, and comes with a corpus of 17M sentences.

  • Download size : 1.75 MiB

  • Dataset size : 2.09 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 920
'train' 8,134
'validation' 926
  • উদ্ধৃতি :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/qasc_with_ir

  • Config description : QASC is a question-answering dataset with a focus on sentence composition. It consists of 8-way multiple-choice questions about grade school science, and comes with a corpus of 17M sentences. This version includes paragraphs fetched via an information retrieval system as additional evidence.

  • Download size : 16.95 MiB

  • Dataset size : 17.30 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 920
'train' 8,134
'validation' 926
  • উদ্ধৃতি :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/qasc_with_ir_test

  • Config description : QASC is a question-answering dataset with a focus on sentence composition. It consists of 8-way multiple-choice questions about grade school science, and comes with a corpus of 17M sentences. This version includes paragraphs fetched via an information retrieval system as additional evidence.

  • Download size : 16.95 MiB

  • Dataset size : 17.30 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 920
'train' 8,134
'validation' 926
  • উদ্ধৃতি :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/quoref

  • Config description : This dataset tests the coreferential reasoning capability of reading comprehension systems. In this span-selection benchmark containing questions over paragraphs from Wikipedia, a system must resolve hard coreferences before selecting the appropriate span(s) in the paragraphs for answering questions.

  • Download size : 51.43 MiB

  • Dataset size : 52.29 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 22,265
'validation' 2,768
  • উদ্ধৃতি :
@inproceedings{dasigi-etal-2019-quoref,
    title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
    author = "Dasigi, Pradeep  and
      Liu, Nelson F.  and
      Marasovi{'c}, Ana  and
      Smith, Noah A.  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1606",
    doi = "10.18653/v1/D19-1606",
    pages = "5925--5932",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/race_string

  • Config description : Race is a large-scale reading comprehension dataset. The dataset is collected from English examinations in China, which are designed for middle school and high school students. The dataset can be served as the training and test sets for machine comprehension.

  • Download size : 167.97 MiB

  • Dataset size : 171.23 MiB

  • Auto-cached ( documentation ): Yes (test, validation), Only when shuffle_files=False (train)

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 4,934
'train' 87,863
'validation' 4,887
  • উদ্ধৃতি :
@inproceedings{lai-etal-2017-race,
    title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
    author = "Lai, Guokun  and
      Xie, Qizhe  and
      Liu, Hanxiao  and
      Yang, Yiming  and
      Hovy, Eduard",
    booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
    month = sep,
    year = "2017",
    address = "Copenhagen, Denmark",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D17-1082",
    doi = "10.18653/v1/D17-1082",
    pages = "785--794",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/race_string_dev

  • Config description : Race is a large-scale reading comprehension dataset. The dataset is collected from English examinations in China, which are designed for middle school and high school students. The dataset can be served as the training and test sets for machine comprehension.

  • Download size : 167.97 MiB

  • Dataset size : 171.23 MiB

  • Auto-cached ( documentation ): Yes (test, validation), Only when shuffle_files=False (train)

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 4,934
'train' 87,863
'validation' 4,887
  • উদ্ধৃতি :
@inproceedings{lai-etal-2017-race,
    title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
    author = "Lai, Guokun  and
      Xie, Qizhe  and
      Liu, Hanxiao  and
      Yang, Yiming  and
      Hovy, Eduard",
    booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
    month = sep,
    year = "2017",
    address = "Copenhagen, Denmark",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D17-1082",
    doi = "10.18653/v1/D17-1082",
    pages = "785--794",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/ropes

  • Config description : This dataset tests a system's ability to apply knowledge from a passage of text to a new situation. A system is presented a background passage containing a causal or qualitative relation(s) (eg, "animal pollinators increase efficiency of fertilization in flowers"), a novel situation that uses this background, and questions that require reasoning about effects of the relationships in the background passage in the context of the situation.

  • Download size : 12.91 MiB

  • Dataset size : 13.35 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 10,924
'validation' 1,688
  • উদ্ধৃতি :
@inproceedings{lin-etal-2019-reasoning,
    title = "Reasoning Over Paragraph Effects in Situations",
    author = "Lin, Kevin  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5808",
    doi = "10.18653/v1/D19-5808",
    pages = "58--62",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/social_iqa

  • Config description : This is a large-scale benchmark for commonsense reasoning about social situations. Social IQa contains multiple choice questions for probing emotional and social intelligence in a variety of everyday situations. Through crowdsourcing, commonsense questions along with correct and incorrect answers about social interactions are collected, using a new framework that mitigates stylistic artifacts in incorrect answers by asking workers to provide the right answer to a different but related question.

  • Download size : 7.08 MiB

  • Dataset size : 8.22 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 33,410
'validation' 1,954
  • উদ্ধৃতি :
@inproceedings{sap-etal-2019-social,
    title = "Social {IQ}a: Commonsense Reasoning about Social Interactions",
    author = "Sap, Maarten  and
      Rashkin, Hannah  and
      Chen, Derek  and
      Le Bras, Ronan  and
      Choi, Yejin",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1454",
    doi = "10.18653/v1/D19-1454",
    pages = "4463--4473",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/squad1_1

  • Config description : This is a reading comprehension dataset consisting of questions posed by crowdworkers on a set of Wikipedia articles, where the answer to each question is a segment of text from the corresponding reading passage.

  • Download size : 80.62 MiB

  • Dataset size : 83.99 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 87,514
'validation' 10,570
  • উদ্ধৃতি :
@inproceedings{rajpurkar-etal-2016-squad,
    title = "{SQ}u{AD}: 100,000+ Questions for Machine Comprehension of Text",
    author = "Rajpurkar, Pranav  and
      Zhang, Jian  and
      Lopyrev, Konstantin  and
      Liang, Percy",
    booktitle = "Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing",
    month = nov,
    year = "2016",
    address = "Austin, Texas",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D16-1264",
    doi = "10.18653/v1/D16-1264",
    pages = "2383--2392",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/squad2

  • Config description : This dataset combines the original Stanford Question Answering Dataset (SQuAD) dataset with unanswerable questions written adversarially by crowdworkers to look similar to answerable ones.

  • Download size : 116.56 MiB

  • Dataset size : 121.43 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 130,149
'validation' 11,873
  • উদ্ধৃতি :
@inproceedings{rajpurkar-etal-2018-know,
    title = "Know What You Don{'}t Know: Unanswerable Questions for {SQ}u{AD}",
    author = "Rajpurkar, Pranav  and
      Jia, Robin  and
      Liang, Percy",
    booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)",
    month = jul,
    year = "2018",
    address = "Melbourne, Australia",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/P18-2124",
    doi = "10.18653/v1/P18-2124",
    pages = "784--789",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/winogrande_l

  • Config description : This dataset is inspired by the original Winograd Schema Challenge design, but adjusted to improve both the scale and the hardness of the dataset. The key steps of the dataset construction consist of (1) a carefully designed crowdsourcing procedure, followed by (2) systematic bias reduction using a novel AfLite algorithm that generalizes human-detectable word associations to machine-detectable embedding associations. Training sets with differnt sizes are provided. This set corresponds to size l .

  • Download size : 1.49 MiB

  • Dataset size : 1.83 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 10,234
'validation' 1,267
  • উদ্ধৃতি :
@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/winogrande_m

  • Config description : This dataset is inspired by the original Winograd Schema Challenge design, but adjusted to improve both the scale and the hardness of the dataset. The key steps of the dataset construction consist of (1) a carefully designed crowdsourcing procedure, followed by (2) systematic bias reduction using a novel AfLite algorithm that generalizes human-detectable word associations to machine-detectable embedding associations. Training sets with differnt sizes are provided. This set corresponds to size m .

  • Download size : 507.46 KiB

  • Dataset size : 623.15 KiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 2,558
'validation' 1,267
  • উদ্ধৃতি :
@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/winogrande_s

  • Config description : This dataset is inspired by the original Winograd Schema Challenge design, but adjusted to improve both the scale and the hardness of the dataset. The key steps of the dataset construction consist of (1) a carefully designed crowdsourcing procedure, followed by (2) systematic bias reduction using a novel AfLite algorithm that generalizes human-detectable word associations to machine-detectable embedding associations. Training sets with differnt sizes are provided. This set corresponds to size s .

  • Download size : 479.24 KiB

  • Dataset size : 590.47 KiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 1,767
'train' 640
'validation' 1,267
  • উদ্ধৃতি :
@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."