חוּלִיָה

  • תיאור:

מערך הנתונים לענות על שאלות סטנפורד (SQuAD) הוא מערך נתונים להבנת הנקרא, המורכב משאלות שהועלו על ידי עובדי קהל על קבוצה של מאמרים בויקיפדיה, כאשר התשובה לכל שאלה היא קטע טקסט, או טווח, מתוך קטע הקריאה המקביל, או השאלה עלול להיות בלתי ניתן לענות.

@article{2016arXiv160605250R,
       author = { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
                 Konstantin and {Liang}, Percy},
        title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
      journal = {arXiv e-prints},
         year = 2016,
          eid = {arXiv:1606.05250},
        pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
       eprint = {1606.05250},
}

squad/v1.1 (ברירת מחדל)

  • תיאור Config: גירסה 1.1.0 של SQUAD

  • גודל ההורדה: 33.51 MiB

  • מערך נתונים גודל: 94.06 MiB

  • Auto-במטמון ( תיעוד ): כן

  • פיצולים:

לְפַצֵל דוגמאות
'train' 87,599
'validation' 10,570
  • מאפיינים:
FeaturesDict({
    'answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'context': Text(shape=(), dtype=tf.string),
    'id': tf.string,
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})

נבחרת/v2.0

  • תיאור Config: גירסה 2.0.0 של SQUAD

  • גודל ההורדה: 44.34 MiB

  • מערך נתונים גודל: 148.54 MiB

  • Auto-במטמון ( תיעוד ): כן (אימות), רק כאשר shuffle_files=False (הרכבת)

  • פיצולים:

לְפַצֵל דוגמאות
'train' 130,319
'validation' 11,873
  • מאפיינים:
FeaturesDict({
    'answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'context': Text(shape=(), dtype=tf.string),
    'id': tf.string,
    'is_impossible': tf.bool,
    'plausible_answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})