- توضیحات :
TriviaqQA یک مجموعه داده درک مطلب است که شامل بیش از 650 هزار سوال پرسش و پاسخ است. TriviaqQA شامل 95K زوج پاسخ سوال است که توسط علاقه مندان به چیزهای بی اهمیت تألیف شده و به طور مستقل مدارک شواهد را جمع آوری کرده اند ، به طور متوسط شش مورد در هر سوال ، که نظارت از راه دور با کیفیت بالا را برای پاسخ دادن به سوالات فراهم می کند.
صفحه اصلی : http://nlp.cs.washington.edu/triviaqa/
کد منبع :
tfds.question_answering.TriviaQA
نسخه ها :
-
1.1.0
(پیش فرض): بدون یادداشت انتشار.
-
اندازه بارگیری :
Unknown size
اندازه مجموعه داده :
119.78 MiB
ذخیره خودکار ( مستندات ): بله
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 10،832 |
'train' | 87،622 |
'validation' | 11313 |
- ویژگی ها :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=tf.string)),
'matched_wiki_entity_name': Text(shape=(), dtype=tf.string),
'normalized_aliases': Sequence(Text(shape=(), dtype=tf.string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=tf.string),
'normalized_value': Text(shape=(), dtype=tf.string),
'type': Text(shape=(), dtype=tf.string),
'value': Text(shape=(), dtype=tf.string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=tf.string),
'filename': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
'wiki_context': Text(shape=(), dtype=tf.string),
}),
'question': Text(shape=(), dtype=tf.string),
'question_id': Text(shape=(), dtype=tf.string),
'question_source': Text(shape=(), dtype=tf.string),
'search_results': Sequence({
'description': Text(shape=(), dtype=tf.string),
'filename': Text(shape=(), dtype=tf.string),
'rank': tf.int32,
'search_context': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
'url': Text(shape=(), dtype=tf.string),
}),
})
کلیدهای تحت نظارت (به
as_supervised
سند نظارت شده مراجعه کنید):None
نقل قول :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
- شکل ( tfds.show_examples ): پشتیبانی نمی شود.
trivia_qa / rc (پیکربندی پیش فرض)
شرح پیکربندی : جفت سوال-جواب که در آن همه اسناد مربوط به یک سوال داده شده حاوی رشته (ها) پاسخ هستند. شامل متن از ویکی پدیا و نتایج جستجو است.
مثالها ( tfds.as_dataframe ):
trivia_qa / rc.nocontext
شرح پیکربندی : جفت سوال-جواب که در آن همه اسناد مربوط به یک سوال داده شده حاوی رشته (ها) پاسخ هستند.
مثالها ( tfds.as_dataframe ):
trivia_qa / فیلتر نشده
شرح پیکربندی : 110k جفت سوال-پاسخ برای QA دامنه باز که در آن همه اسناد مربوط به یک سوال مشخص حاوی رشته (های) پاسخ نیستند. این باعث می شود که مجموعه داده فیلتر نشده برای QA به سبک IR مناسب تر باشد. شامل متن از ویکی پدیا و نتایج جستجو است.
مثالها ( tfds.as_dataframe ):
trivia_qa / فیلتر نشده. nocontext
شرح پیکربندی : 110k جفت سوال-پاسخ برای QA دامنه باز که در آن همه اسناد مربوط به یک سوال مشخص حاوی رشته (های) پاسخ نیستند. این باعث می شود که مجموعه داده فیلتر نشده برای QA به سبک IR مناسب تر باشد.
مثالها ( tfds.as_dataframe ):