גזע

  • תיאור :

Race הוא מערך נתונים בקנה מידה גדול של הבנת הנקרא עם יותר מ-28,000 קטעים וכמעט 100,000 שאלות. מערך הנתונים נאסף מבחינות אנגלית בסין, המיועדות לתלמידי חטיבת ביניים ותיכון. ניתן להגיש את מערך הנתונים כמערכי ההדרכה והבדיקה להבנת מכונה.

FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=string)),
    'article': Text(shape=(), dtype=string),
    'example_id': Text(shape=(), dtype=string),
    'options': Sequence(Sequence(Text(shape=(), dtype=string))),
    'questions': Sequence(Text(shape=(), dtype=string)),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תשובות רצף (טקסט) (אף אחד,) חוּט
מאמר טֶקסט חוּט
example_id טֶקסט חוּט
אפשרויות Sequence(Sequence(Text)) (אין, אין) חוּט
שאלות רצף (טקסט) (אף אחד,) חוּט
@article{lai2017large,
    title={RACE: Large-scale ReAding Comprehension Dataset From Examinations},
    author={Lai, Guokun and Xie, Qizhe and Liu, Hanxiao and Yang, Yiming and Hovy, Eduard},
    journal={arXiv preprint arXiv:1704.04683},
    year={2017}
}

גזע/גבוה (תצורת ברירת מחדל)

  • גודל מערך נתונים : 52.39 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 1,021
'test' 1,045
'train' 18,728

גזע/אמצע

  • גודל ערכת נתונים : 12.51 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 368
'test' 362
'train' 6,409