سوالات_طبیعی

  • توضیحات :

مجموعه NQ حاوی سوالاتی از کاربران واقعی است، و سیستم‌های QA را برای خواندن و درک کل مقاله ویکی‌پدیا که ممکن است حاوی پاسخ سوال باشد یا نباشد، می‌طلبد. گنجاندن سوالات واقعی کاربر، و الزام به اینکه راه حل ها باید یک صفحه کامل را برای یافتن پاسخ بخوانند، باعث می شود NQ یک کار واقعی تر و چالش برانگیزتر از مجموعه داده های QA قبلی باشد.

شکاف مثال ها
'train' 307,373
'validation' 7830
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}

natural_questions/default (پیکربندی پیش‌فرض)

  • توضیحات پیکربندی : پیکربندی پیش فرض natural_questions

  • حجم مجموعه داده : 90.26 GiB

  • ساختار ویژگی :

FeaturesDict({
    'annotations': Sequence({
        'id': string,
        'long_answer': FeaturesDict({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
        }),
        'short_answers': Sequence({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
            'text': Text(shape=(), dtype=string),
        }),
        'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
    }),
    'document': FeaturesDict({
        'html': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'tokens': Sequence({
            'is_html': bool,
            'token': Text(shape=(), dtype=string),
        }),
        'url': Text(shape=(), dtype=string),
    }),
    'id': string,
    'question': FeaturesDict({
        'text': Text(shape=(), dtype=string),
        'tokens': Sequence(string),
    }),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
حاشیه نویسی توالی
حاشیه نویسی / شناسه تانسور رشته
حاشیه نویسی/long_answer FeaturesDict
annotations/long_answer/end_byte تانسور int64
annotations/long_answer/end_token تانسور int64
annotations/long_answer/start_byte تانسور int64
annotations/long_answer/start_token تانسور int64
حاشیه نویسی/پاسخ_کوتاه توالی
حاشیه نویسی/پاسخ_کوتاه/پایان_بایت تانسور int64
حاشیه نویسی/پاسخ_کوتاه/توکن_پایانی تانسور int64
حاشیه نویسی/پاسخ_کوتاه/شروع_بایت تانسور int64
حاشیه نویسی/پاسخ_کوتاه/توکن_شروع تانسور int64
حاشیه نویسی/پاسخ_کوتاه/متن متن رشته
حاشیه نویسی/yes_no_answer ClassLabel int64
سند FeaturesDict
سند/html متن رشته
سند/عنوان متن رشته
سند/نشانه توالی
document/tokens/is_html تانسور بوول
سند/ژتون/نشانه متن رشته
سند/url متن رشته
شناسه تانسور رشته
سوال FeaturesDict
سوال/متن متن رشته
سوال / نشانه ها دنباله (تنسور) (هیچ یک،) رشته

natural_questions/longt5

  • توضیحات پیکربندی : natural_questions از پیش پردازش شده مانند معیار longT5

  • حجم مجموعه داده : 8.91 GiB

  • ساختار ویژگی :

FeaturesDict({
    'all_answers': Sequence(Text(shape=(), dtype=string)),
    'answer': Text(shape=(), dtype=string),
    'context': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
all_answers دنباله (متن) (هیچ یک،) رشته
پاسخ متن رشته
متن نوشته متن رشته
شناسه متن رشته
سوال متن رشته
عنوان متن رشته