- توضیحات :
مجموعه NQ شامل س questionsالاتی از کاربران واقعی است و برای خواندن و درک کامل مقاله ویکی پدیا که ممکن است حاوی پاسخ سوال باشد یا نباشد ، به سیستم های QA نیاز دارد. گنجاندن س questionsالات واقعی کاربر و این الزام که راه حل ها باید کل صفحه را برای یافتن پاسخ بخوانند ، باعث می شود NQ یک کار واقع بینانه تر و چالش برانگیزتر از مجموعه داده های قبلی QA باشد.
صفحه اصلی : https://ai.google.com/research/NaturalQuestions/dataset
کد منبع :
tfds.question_answering.NaturalQuestions
نسخه ها :
-
0.0.1
: بدون یادداشت انتشار. -
0.0.2
(پیش فرض): بدون یادداشت انتشار.
-
اندازه بارگیری :
Unknown size
اندازه مجموعه داده :
90.26 GiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'train' | 307،373 |
'validation' | 7،830 |
- ویژگی ها :
FeaturesDict({
'annotations': Sequence({
'id': tf.string,
'long_answer': FeaturesDict({
'end_byte': tf.int64,
'end_token': tf.int64,
'start_byte': tf.int64,
'start_token': tf.int64,
}),
'short_answers': Sequence({
'end_byte': tf.int64,
'end_token': tf.int64,
'start_byte': tf.int64,
'start_token': tf.int64,
'text': Text(shape=(), dtype=tf.string),
}),
'yes_no_answer': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
}),
'document': FeaturesDict({
'html': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
'tokens': Sequence({
'is_html': tf.bool,
'token': Text(shape=(), dtype=tf.string),
}),
'url': Text(shape=(), dtype=tf.string),
}),
'id': tf.string,
'question': FeaturesDict({
'text': Text(shape=(), dtype=tf.string),
'tokens': Sequence(tf.string),
}),
})
کلیدهای تحت نظارت (به
as_supervised
سند نظارت شده مراجعه کنید):None
نقل قول :
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):