স্বাভাবিক_প্রশ্ন

  • বর্ণনা :

NQ কর্পাসে প্রকৃত ব্যবহারকারীদের কাছ থেকে প্রশ্ন রয়েছে, এবং এটির জন্য QA সিস্টেমের প্রয়োজন একটি সম্পূর্ণ উইকিপিডিয়া নিবন্ধ পড়তে এবং বোঝার জন্য যাতে প্রশ্নের উত্তর থাকতে পারে বা নাও থাকতে পারে। প্রকৃত ব্যবহারকারীর প্রশ্ন অন্তর্ভুক্ত করা, এবং উত্তর খোঁজার জন্য সমাধানগুলির একটি সম্পূর্ণ পৃষ্ঠা পড়া উচিত, যার ফলে পূর্বের QA ডেটাসেটের তুলনায় NQ-কে আরও বাস্তবসম্মত এবং চ্যালেঞ্জিং কাজ হতে পারে।

বিভক্ত উদাহরণ
'train' 307,373
'validation' 7,830
  • তত্ত্বাবধান করা কী (দেখুন as_supervised doc ): None

  • চিত্র ( tfds.show_examples ): সমর্থিত নয়।

  • উদ্ধৃতি :

@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}

প্রাকৃতিক_প্রশ্ন/ডিফল্ট (ডিফল্ট কনফিগারেশন)

  • কনফিগারেশনের বিবরণ : ডিফল্ট প্রাকৃতিক_প্রশ্ন কনফিগার

  • ডেটাসেটের আকার : 90.26 GiB

  • বৈশিষ্ট্য গঠন :

FeaturesDict({
    'annotations': Sequence({
        'id': string,
        'long_answer': FeaturesDict({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
        }),
        'short_answers': Sequence({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
            'text': Text(shape=(), dtype=string),
        }),
        'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
    }),
    'document': FeaturesDict({
        'html': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'tokens': Sequence({
            'is_html': bool,
            'token': Text(shape=(), dtype=string),
        }),
        'url': Text(shape=(), dtype=string),
    }),
    'id': string,
    'question': FeaturesDict({
        'text': Text(shape=(), dtype=string),
        'tokens': Sequence(string),
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
টীকা ক্রম
টীকা/আইডি টেনসর স্ট্রিং
টীকা/দীর্ঘ_উত্তর ফিচারসডিক্ট
টীকা/long_answer/end_byte টেনসর int64
টীকা/দীর্ঘ_উত্তর/এন্ড_টোকেন টেনসর int64
টীকা/long_answer/start_byte টেনসর int64
টীকা/long_answer/start_token টেনসর int64
টীকা/ছোট_উত্তর ক্রম
টীকা/short_answers/end_byte টেনসর int64
টীকা/ছোট_উত্তর/এন্ড_টোকেন টেনসর int64
টীকা/short_answers/start_byte টেনসর int64
টীকা/ছোট_উত্তর/স্টার্ট_টোকেন টেনসর int64
টীকা/ছোট_উত্তর/পাঠ্য পাঠ্য স্ট্রিং
টীকা/হ্যাঁ_না_উত্তর ক্লাসলেবেল int64
নথি ফিচারসডিক্ট
নথি/html পাঠ্য স্ট্রিং
নথির শিরোনাম পাঠ্য স্ট্রিং
নথি/টোকেন ক্রম
নথি/টোকেন/is_html টেনসর bool
নথি/টোকেন/টোকেন পাঠ্য স্ট্রিং
নথি/ইউআরএল পাঠ্য স্ট্রিং
আইডি টেনসর স্ট্রিং
প্রশ্ন ফিচারসডিক্ট
প্রশ্ন/পাঠ্য পাঠ্য স্ট্রিং
প্রশ্ন/টোকেন ক্রম (টেনসর) (কোনটিই নয়,) স্ট্রিং

প্রাকৃতিক_প্রশ্ন/দীর্ঘ5

  • কনফিগারেশনের বিবরণ : প্রাকৃতিক_প্রশ্নগুলি লংটি 5 বেঞ্চমার্কের মতোই প্রিপ্রসেস করা হয়েছে

  • ডেটাসেটের আকার : 8.91 GiB

  • বৈশিষ্ট্য গঠন :

FeaturesDict({
    'all_answers': Sequence(Text(shape=(), dtype=string)),
    'answer': Text(shape=(), dtype=string),
    'context': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
সব_উত্তর ক্রম (পাঠ্য) (কোনটিই নয়,) স্ট্রিং
উত্তর পাঠ্য স্ট্রিং
প্রসঙ্গ পাঠ্য স্ট্রিং
আইডি পাঠ্য স্ট্রিং
প্রশ্ন পাঠ্য স্ট্রিং
শিরোনাম পাঠ্য স্ট্রিং