חוּלִיָה

  • תיאור :

סטנפורד שאלות תשובות נתונים (SQuAD) הוא מערך נתונים של הבנת הנקרא, המורכב משאלות שהועלו על ידי עובדי המונים בקבוצה של מאמרים בוויקיפדיה, כאשר התשובה לכל שאלה היא קטע של טקסט, או טווח, מקטע הקריאה המתאים, או מהשאלה עלול להיות בלתי ניתן לתשובה.

@article{2016arXiv160605250R,
       author = { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
                 Konstantin and {Liang}, Percy},
        title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
      journal = {arXiv e-prints},
         year = 2016,
          eid = {arXiv:1606.05250},
        pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
       eprint = {1606.05250},
}

squad/v1.1 (תצורת ברירת המחדל)

  • תיאור תצורה : גרסה 1.1.0 של SQUAD

  • גודל הורדה : 33.51 MiB

  • גודל מערך נתונים : 94.06 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 87,599
'validation' 10,570
  • מבנה תכונה :
FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תשובות סדר פעולות
answers/answer_start מוֹתֵחַ int32
תשובות/טקסט טֶקסט חוּט
הֶקשֵׁר טֶקסט חוּט
תְעוּדַת זֶהוּת מוֹתֵחַ חוּט
שְׁאֵלָה טֶקסט חוּט
כותרת טֶקסט חוּט

squad/v2.0

  • תיאור תצורה : גרסה 2.0.0 של SQUAD

  • גודל הורדה : 44.34 MiB

  • גודל ערכת נתונים: 148.54 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן (אימות), רק כאשר shuffle_files=False (רכבת)

  • פיצולים :

לְפַצֵל דוגמאות
'train' 130,319
'validation' 11,873
  • מבנה תכונה :
FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'is_impossible': bool,
    'plausible_answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תשובות סדר פעולות
answers/answer_start מוֹתֵחַ int32
תשובות/טקסט טֶקסט חוּט
הֶקשֵׁר טֶקסט חוּט
תְעוּדַת זֶהוּת מוֹתֵחַ חוּט
בלתי אפשרי מוֹתֵחַ bool
תשובות_סבירות סדר פעולות
plausible_answers/answer_start מוֹתֵחַ int32
סבירות_תשובות/טקסט טֶקסט חוּט
שְׁאֵלָה טֶקסט חוּט
כותרת טֶקסט חוּט