چیزهای بی اهمیت_قا

  • توضیحات :

TriviaqQA یک مجموعه داده درک مطلب است که شامل بیش از 650 هزار پرسش و پاسخ و شواهد سه گانه است. TriviaqQA شامل 95 هزار جفت پرسش-پاسخ است که توسط علاقه مندان به چیزهای بی اهمیت نوشته شده است و اسناد شواهدی که به طور مستقل جمع آوری شده اند، به طور متوسط ​​6 عدد در هر سوال، که نظارت از راه دور با کیفیت بالا را برای پاسخ دادن به سوالات فراهم می کند.

FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_value': Text(shape=(), dtype=string),
        'type': Text(shape=(), dtype=string),
        'value': Text(shape=(), dtype=string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'wiki_context': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'question_id': Text(shape=(), dtype=string),
    'question_source': Text(shape=(), dtype=string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'rank': int32,
        'search_context': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
پاسخ FeaturesDict
پاسخ / نام مستعار دنباله (متن) (هیچ یک،) رشته
answer/matched_wiki_entity_name متن رشته
answer/normalized_aliases دنباله (متن) (هیچ یک،) رشته
answer/normalized_matched_wiki_entity_name متن رشته
answer/normalized_value متن رشته
پاسخ/نوع متن رشته
پاسخ/ارزش متن رشته
entity_pages توالی
entity_pages/doc_source متن رشته
entity_pages/نام فایل متن رشته
entity_pages/title متن رشته
entity_pages/wiki_context متن رشته
سوال متن رشته
question_id متن رشته
منبع_سوال متن رشته
نتایج جستجو توالی
نتایج_جستجو/توضیحات متن رشته
نتایج_جستجو/نام فایل متن رشته
نتایج_جستجو/رتبه تانسور int32
search_results/search_context متن رشته
نتایج_جستجو/عنوان متن رشته
search_results/url متن رشته
@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa/rc (پیکربندی پیش فرض)

  • توضیحات پیکربندی : جفت‌های پرسش و پاسخ که در آن همه اسناد برای یک سؤال معین شامل رشته (های) پاسخ هستند. شامل زمینه ویکی پدیا و نتایج جستجو می شود.

  • حجم دانلود : 2.48 GiB

  • حجم مجموعه داده : 14.99 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 17210
'train' 138,384
'validation' 18669

trivia_qa/rc.nocontext

  • توضیحات پیکربندی : جفت‌های پرسش و پاسخ که در آن همه اسناد برای یک سؤال معین شامل رشته (های) پاسخ هستند.

  • حجم دانلود : 2.48 GiB

  • حجم مجموعه داده : 196.84 MiB

  • ذخیره خودکار ( مستندات ): بله (تست، اعتبارسنجی)، فقط زمانی که shuffle_files=False (قطار)

  • تقسیم ها :

شکاف مثال ها
'test' 17210
'train' 138,384
'validation' 18669

trivia_qa/فیلتر نشده

  • شرح پیکربندی : 110 هزار جفت پرسش و پاسخ برای QA دامنه باز که در آن همه اسناد برای یک سؤال معین شامل رشته(های) پاسخ نیستند. این باعث می شود مجموعه داده فیلتر نشده برای QA به سبک IR مناسب تر باشد. شامل زمینه ویکی پدیا و نتایج جستجو می شود.

  • حجم دانلود : 3.07 GiB

  • حجم مجموعه داده : 27.27 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 10,832
'train' 87622
'validation' 11,313

trivia_qa/unfiltered.nocontext

  • شرح پیکربندی : 110 هزار جفت پرسش و پاسخ برای QA دامنه باز که در آن همه اسناد برای یک سؤال معین شامل رشته(های) پاسخ نیستند. این باعث می شود مجموعه داده فیلتر نشده برای QA به سبک IR مناسب تر باشد.

  • حجم دانلود : 603.25 MiB

  • حجم مجموعه داده : 119.78 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 10,832
'train' 87622
'validation' 11,313
،

  • توضیحات :

TriviaqQA یک مجموعه داده درک مطلب است که شامل بیش از 650 هزار پرسش و پاسخ و شواهد سه گانه است. TriviaqQA شامل 95 هزار جفت پرسش-پاسخ است که توسط علاقه مندان به چیزهای بی اهمیت نوشته شده است و اسناد شواهدی که به طور مستقل جمع آوری شده اند، به طور متوسط ​​6 عدد در هر سوال، که نظارت از راه دور با کیفیت بالا را برای پاسخ دادن به سوالات فراهم می کند.

FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_value': Text(shape=(), dtype=string),
        'type': Text(shape=(), dtype=string),
        'value': Text(shape=(), dtype=string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'wiki_context': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'question_id': Text(shape=(), dtype=string),
    'question_source': Text(shape=(), dtype=string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'rank': int32,
        'search_context': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
پاسخ FeaturesDict
پاسخ / نام مستعار دنباله (متن) (هیچ یک،) رشته
answer/matched_wiki_entity_name متن رشته
answer/normalized_aliases دنباله (متن) (هیچ یک،) رشته
answer/normalized_matched_wiki_entity_name متن رشته
answer/normalized_value متن رشته
پاسخ/نوع متن رشته
پاسخ/ارزش متن رشته
entity_pages توالی
entity_pages/doc_source متن رشته
entity_pages/نام فایل متن رشته
entity_pages/title متن رشته
entity_pages/wiki_context متن رشته
سوال متن رشته
question_id متن رشته
منبع_سوال متن رشته
نتایج جستجو توالی
نتایج_جستجو/توضیحات متن رشته
نتایج_جستجو/نام فایل متن رشته
نتایج_جستجو/رتبه تانسور int32
search_results/search_context متن رشته
نتایج_جستجو/عنوان متن رشته
search_results/url متن رشته
@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa/rc (پیکربندی پیش فرض)

  • توضیحات پیکربندی : جفت‌های پرسش و پاسخ که در آن همه اسناد برای یک سؤال معین شامل رشته (های) پاسخ هستند. شامل زمینه ویکی پدیا و نتایج جستجو می شود.

  • حجم دانلود : 2.48 GiB

  • حجم مجموعه داده : 14.99 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 17210
'train' 138,384
'validation' 18669

trivia_qa/rc.nocontext

  • توضیحات پیکربندی : جفت‌های پرسش و پاسخ که در آن همه اسناد برای یک سؤال معین شامل رشته (های) پاسخ هستند.

  • حجم دانلود : 2.48 GiB

  • حجم مجموعه داده : 196.84 MiB

  • ذخیره خودکار ( مستندات ): بله (تست، اعتبارسنجی)، فقط زمانی که shuffle_files=False (قطار)

  • تقسیم ها :

شکاف مثال ها
'test' 17210
'train' 138,384
'validation' 18669

trivia_qa/فیلتر نشده

  • شرح پیکربندی : 110 هزار جفت پرسش و پاسخ برای QA دامنه باز که در آن همه اسناد برای یک سؤال معین شامل رشته(های) پاسخ نیستند. این باعث می شود مجموعه داده فیلتر نشده برای QA به سبک IR مناسب تر باشد. شامل زمینه ویکی پدیا و نتایج جستجو می شود.

  • حجم دانلود : 3.07 GiB

  • حجم مجموعه داده : 27.27 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 10,832
'train' 87622
'validation' 11,313

trivia_qa/unfiltered.nocontext

  • شرح پیکربندی : 110 هزار جفت پرسش و پاسخ برای QA دامنه باز که در آن همه اسناد برای یک سؤال معین شامل رشته(های) پاسخ نیستند. این باعث می شود مجموعه داده فیلتر نشده برای QA به سبک IR مناسب تر باشد.

  • حجم دانلود : 603.25 MiB

  • حجم مجموعه داده : 119.78 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 10,832
'train' 87622
'validation' 11,313