trivia_qa

  • תיאור :

TriviaqQA הוא מערך נתונים של הבנת הנקרא המכיל למעלה מ-650,000 שלשות של שאלות-תשובה-ראיות. TriviaqQA כולל 95,000 צמדי שאלות ותשובות שנכתבו על ידי חובבי טריוויה ומסמכי ראיה שנאספו באופן עצמאי, שישה לשאלה בממוצע, המספקים פיקוח מרוחק באיכות גבוהה למענה על השאלות.

לְפַצֵל דוגמאות
'test' 10,832
'train' 87,622
'validation' 11,313
  • מבנה תכונה :
FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=tf.string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=tf.string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=tf.string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=tf.string),
        'normalized_value': Text(shape=(), dtype=tf.string),
        'type': Text(shape=(), dtype=tf.string),
        'value': Text(shape=(), dtype=tf.string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=tf.string),
        'filename': Text(shape=(), dtype=tf.string),
        'title': Text(shape=(), dtype=tf.string),
        'wiki_context': Text(shape=(), dtype=tf.string),
    }),
    'question': Text(shape=(), dtype=tf.string),
    'question_id': Text(shape=(), dtype=tf.string),
    'question_source': Text(shape=(), dtype=tf.string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=tf.string),
        'filename': Text(shape=(), dtype=tf.string),
        'rank': tf.int32,
        'search_context': Text(shape=(), dtype=tf.string),
        'title': Text(shape=(), dtype=tf.string),
        'url': Text(shape=(), dtype=tf.string),
    }),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תשובה FeaturesDict
תשובה/כינויים רצף (טקסט) (אף אחד,) tf.string
answer/matched_wiki_entity_name טֶקסט tf.string
answer/normalized_aliases רצף (טקסט) (אף אחד,) tf.string
answer/normalized_matched_wiki_entity_name טֶקסט tf.string
answer/normalized_value טֶקסט tf.string
תשובה/סוג טֶקסט tf.string
תשובה/ערך טֶקסט tf.string
דפי_ישות סדר פעולות
entity_pages/doc_source טֶקסט tf.string
entity_pages/שם קובץ טֶקסט tf.string
entity_pages/title טֶקסט tf.string
entity_pages/wiki_context טֶקסט tf.string
שְׁאֵלָה טֶקסט tf.string
מזהה_שאלה טֶקסט tf.string
שאלה_מקור טֶקסט tf.string
תוצאות חיפוש סדר פעולות
תוצאות_חיפוש/תיאור טֶקסט tf.string
תוצאות_חיפוש/שם קובץ טֶקסט tf.string
תוצאות_חיפוש/דירוג מוֹתֵחַ tf.int32
search_results/search_context טֶקסט tf.string
תוצאות_חיפוש/כותרת טֶקסט tf.string
תוצאות_חיפוש/כתובת אתר טֶקסט tf.string
@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa/rc (תצורת ברירת המחדל)

  • תיאור תצורה : צמדי שאלה-תשובה כאשר כל המסמכים עבור שאלה נתונה מכילים את מחרוזת התשובות. כולל הקשר מויקיפדיה ותוצאות חיפוש.

trivia_qa/rc.nocontext

  • תיאור תצורה : צמדי שאלה-תשובה כאשר כל המסמכים עבור שאלה נתונה מכילים את מחרוזת התשובות.

trivia_qa/unfiltered

  • תיאור תצורה : 110,000 זוגות שאלות ותשובות עבור QA של תחום פתוח כאשר לא כל המסמכים עבור שאלה נתונה מכילים את מחרוזת התשובות. זה הופך את מערך הנתונים הלא מסונן למתאים יותר עבור QA בסגנון IR. כולל הקשר מויקיפדיה ותוצאות חיפוש.

trivia_qa/unfiltered.nocontext

  • תיאור תצורה : 110,000 זוגות שאלות ותשובות עבור QA של תחום פתוח כאשר לא כל המסמכים עבור שאלה נתונה מכילים את מחרוזת התשובות. זה הופך את מערך הנתונים הלא מסונן למתאים יותר עבור QA בסגנון IR.