טבעי_שאלות

  • תיאור :

קורפוס NQ מכיל שאלות ממשתמשים אמיתיים, והוא דורש ממערכות QA לקרוא ולהבין מאמר שלם בוויקיפדיה שאולי יכיל את התשובה לשאלה ואולי לא. הכללת שאלות אמיתיות של משתמשים, והדרישה שהפתרונות צריכים לקרוא עמוד שלם כדי למצוא את התשובה, גורמות ל-NQ להיות משימה מציאותית ומאתגרת יותר ממערכי נתונים קודמים של QA.

לְפַצֵל דוגמאות
'train' 307,373
'validation' 7,830
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}

natural_questions/default (תצורת ברירת מחדל)

  • תיאור תצורה : תצורת ברירת מחדל natural_questions

  • גודל מערך נתונים : 90.26 GiB

  • מבנה תכונה :

FeaturesDict({
    'annotations': Sequence({
        'id': tf.string,
        'long_answer': FeaturesDict({
            'end_byte': tf.int64,
            'end_token': tf.int64,
            'start_byte': tf.int64,
            'start_token': tf.int64,
        }),
        'short_answers': Sequence({
            'end_byte': tf.int64,
            'end_token': tf.int64,
            'start_byte': tf.int64,
            'start_token': tf.int64,
            'text': Text(shape=(), dtype=tf.string),
        }),
        'yes_no_answer': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    }),
    'document': FeaturesDict({
        'html': Text(shape=(), dtype=tf.string),
        'title': Text(shape=(), dtype=tf.string),
        'tokens': Sequence({
            'is_html': tf.bool,
            'token': Text(shape=(), dtype=tf.string),
        }),
        'url': Text(shape=(), dtype=tf.string),
    }),
    'id': tf.string,
    'question': FeaturesDict({
        'text': Text(shape=(), dtype=tf.string),
        'tokens': Sequence(tf.string),
    }),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
הערות סדר פעולות
הערות/מזהה מוֹתֵחַ tf.string
הערות/תשובה_ארוכה FeaturesDict
annotations/long_answer/end_byte מוֹתֵחַ tf.int64
הערות/long_answer/end_token מוֹתֵחַ tf.int64
annotations/long_answer/start_byte מוֹתֵחַ tf.int64
הערות/long_answer/start_token מוֹתֵחַ tf.int64
הערות/תשובות_קצרות סדר פעולות
הערות/short_answers/end_byte מוֹתֵחַ tf.int64
הערות/short_answers/end_token מוֹתֵחַ tf.int64
הערות/short_answers/start_byte מוֹתֵחַ tf.int64
הערות/short_answers/start_token מוֹתֵחַ tf.int64
הערות/short_answers/text טֶקסט tf.string
הערות/כן_לא_תשובה ClassLabel tf.int64
מסמך FeaturesDict
מסמך/html טֶקסט tf.string
כותרת המסמך טֶקסט tf.string
מסמך/אסימונים סדר פעולות
document/tokens/is_html מוֹתֵחַ tf.bool
מסמך/אסימונים/אסימון טֶקסט tf.string
מסמך/כתובת אתר טֶקסט tf.string
תְעוּדַת זֶהוּת מוֹתֵחַ tf.string
שְׁאֵלָה FeaturesDict
שאלה/טקסט טֶקסט tf.string
שאלה/אסימונים רצף (טנזור) (אף אחד,) tf.string

natural_questions/longt5

  • תיאור תצורה : natural_questions מעובדות מראש כמו ב-longT5 benchmark

  • גודל מערך נתונים : 8.91 GiB

  • מבנה תכונה :

FeaturesDict({
    'all_answers': Sequence(Text(shape=(), dtype=tf.string)),
    'answer': Text(shape=(), dtype=tf.string),
    'context': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
כל_התשובות רצף (טקסט) (אף אחד,) tf.string
תשובה טֶקסט tf.string
הֶקשֵׁר טֶקסט tf.string
תְעוּדַת זֶהוּת טֶקסט tf.string
שְׁאֵלָה טֶקסט tf.string
כותרת טֶקסט tf.string