trivia_qa

  • תיאור :

TriviaqQA הוא מערך נתונים של הבנת הנקרא המכיל למעלה מ-650,000 משולש שאלות-תשובה-ראיות. TriviaqQA כולל 95,000 צמדי שאלות ותשובות שנכתבו על ידי חובבי טריוויה ומסמכי ראיה שנאספו באופן עצמאי, שישה לשאלה בממוצע, המספקים פיקוח מרחוק באיכות גבוהה לצורך מענה על השאלות.

FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_value': Text(shape=(), dtype=string),
        'type': Text(shape=(), dtype=string),
        'value': Text(shape=(), dtype=string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'wiki_context': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'question_id': Text(shape=(), dtype=string),
    'question_source': Text(shape=(), dtype=string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'rank': int32,
        'search_context': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תשובה FeaturesDict
תשובה/כינויים רצף (טקסט) (אף אחד,) חוּט
answer/matched_wiki_entity_name טֶקסט חוּט
answer/normalized_aliases רצף (טקסט) (אף אחד,) חוּט
answer/normalized_matched_wiki_entity_name טֶקסט חוּט
answer/normalized_value טֶקסט חוּט
תשובה/סוג טֶקסט חוּט
תשובה/ערך טֶקסט חוּט
דפי_ישות סדר פעולות
entity_pages/doc_source טֶקסט חוּט
entity_pages/שם קובץ טֶקסט חוּט
entity_pages/title טֶקסט חוּט
entity_pages/wiki_context טֶקסט חוּט
שְׁאֵלָה טֶקסט חוּט
מזהה_שאלה טֶקסט חוּט
שאלה_מקור טֶקסט חוּט
תוצאות חיפוש סדר פעולות
תוצאות_חיפוש/תיאור טֶקסט חוּט
תוצאות_חיפוש/שם קובץ טֶקסט חוּט
תוצאות_חיפוש/דירוג מוֹתֵחַ int32
search_results/search_context טֶקסט חוּט
תוצאות_חיפוש/כותרת טֶקסט חוּט
search_results/url טֶקסט חוּט
@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa/rc (תצורת ברירת המחדל)

  • תיאור תצורה : צמדי שאלה-תשובה כאשר כל המסמכים עבור שאלה נתונה מכילים את מחרוזת התשובות. כולל הקשר מויקיפדיה ותוצאות חיפוש.

  • גודל הורדה : 2.48 GiB

  • גודל מערך נתונים : 14.99 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 17,210
'train' 138,384
'validation' 18,669

trivia_qa/rc.nocontext

  • תיאור תצורה : צמדי שאלה-תשובה כאשר כל המסמכים עבור שאלה נתונה מכילים את מחרוזת התשובות.

  • גודל הורדה : 2.48 GiB

  • גודל ערכת נתונים: 196.84 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, אימות), רק כאשר shuffle_files=False (רכבת)

  • פיצולים :

לְפַצֵל דוגמאות
'test' 17,210
'train' 138,384
'validation' 18,669

trivia_qa/לא מסונן

  • תיאור תצורה : 110,000 זוגות שאלות ותשובות עבור QA של דומיין פתוח כאשר לא כל המסמכים עבור שאלה נתונה מכילים את מחרוזת התשובות. זה הופך את מערך הנתונים הלא מסונן למתאים יותר עבור QA בסגנון IR. כולל הקשר מויקיפדיה ותוצאות חיפוש.

  • גודל הורדה : 3.07 GiB

  • גודל מערך נתונים : 27.27 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 10,832
'train' 87,622
'validation' 11,313

trivia_qa/unfiltered.nocontext

  • תיאור תצורה : 110,000 זוגות שאלות ותשובות עבור QA של דומיין פתוח כאשר לא כל המסמכים עבור שאלה נתונה מכילים את מחרוזת התשובות. זה הופך את מערך הנתונים הלא מסונן למתאים יותר עבור QA בסגנון IR.

  • גודל הורדה : 603.25 MiB

  • גודל ערכת נתונים: 119.78 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 10,832
'train' 87,622
'validation' 11,313
,

  • תיאור :

TriviaqQA הוא מערך נתונים של הבנת הנקרא המכיל למעלה מ-650,000 משולש שאלות-תשובה-ראיות. TriviaqQA כולל 95,000 צמדי שאלות ותשובות שנכתבו על ידי חובבי טריוויה ומסמכי ראיה שנאספו באופן עצמאי, שישה לשאלה בממוצע, המספקים פיקוח מרחוק באיכות גבוהה לצורך מענה על השאלות.

FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_value': Text(shape=(), dtype=string),
        'type': Text(shape=(), dtype=string),
        'value': Text(shape=(), dtype=string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'wiki_context': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'question_id': Text(shape=(), dtype=string),
    'question_source': Text(shape=(), dtype=string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'rank': int32,
        'search_context': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תשובה FeaturesDict
תשובה/כינויים רצף (טקסט) (אף אחד,) חוּט
answer/matched_wiki_entity_name טֶקסט חוּט
answer/normalized_aliases רצף (טקסט) (אף אחד,) חוּט
answer/normalized_matched_wiki_entity_name טֶקסט חוּט
answer/normalized_value טֶקסט חוּט
תשובה/סוג טֶקסט חוּט
תשובה/ערך טֶקסט חוּט
דפי_ישות סדר פעולות
entity_pages/doc_source טֶקסט חוּט
entity_pages/שם קובץ טֶקסט חוּט
entity_pages/title טֶקסט חוּט
entity_pages/wiki_context טֶקסט חוּט
שְׁאֵלָה טֶקסט חוּט
מזהה_שאלה טֶקסט חוּט
שאלה_מקור טֶקסט חוּט
תוצאות חיפוש סדר פעולות
תוצאות_חיפוש/תיאור טֶקסט חוּט
תוצאות_חיפוש/שם קובץ טֶקסט חוּט
תוצאות_חיפוש/דירוג מוֹתֵחַ int32
search_results/search_context טֶקסט חוּט
תוצאות_חיפוש/כותרת טֶקסט חוּט
search_results/url טֶקסט חוּט
@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa/rc (תצורת ברירת המחדל)

  • תיאור תצורה : צמדי שאלה-תשובה כאשר כל המסמכים עבור שאלה נתונה מכילים את מחרוזת התשובות. כולל הקשר מויקיפדיה ותוצאות חיפוש.

  • גודל הורדה : 2.48 GiB

  • גודל מערך נתונים : 14.99 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 17,210
'train' 138,384
'validation' 18,669

trivia_qa/rc.nocontext

  • תיאור תצורה : צמדי שאלה-תשובה כאשר כל המסמכים עבור שאלה נתונה מכילים את מחרוזת התשובות.

  • גודל הורדה : 2.48 GiB

  • גודל ערכת נתונים: 196.84 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, אימות), רק כאשר shuffle_files=False (רכבת)

  • פיצולים :

לְפַצֵל דוגמאות
'test' 17,210
'train' 138,384
'validation' 18,669

trivia_qa/לא מסונן

  • תיאור תצורה : 110,000 זוגות שאלות ותשובות עבור QA של דומיין פתוח כאשר לא כל המסמכים עבור שאלה נתונה מכילים את מחרוזת התשובות. זה הופך את מערך הנתונים הלא מסונן למתאים יותר עבור QA בסגנון IR. כולל הקשר מויקיפדיה ותוצאות חיפוש.

  • גודל הורדה : 3.07 GiB

  • גודל מערך נתונים : 27.27 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 10,832
'train' 87,622
'validation' 11,313

trivia_qa/unfiltered.nocontext

  • תיאור תצורה : 110,000 זוגות שאלות ותשובות עבור QA של דומיין פתוח כאשר לא כל המסמכים עבור שאלה נתונה מכילים את מחרוזת התשובות. זה הופך את מערך הנתונים הלא מסונן למתאים יותר עבור QA בסגנון IR.

  • גודל הורדה : 603.25 MiB

  • גודל ערכת נתונים: 119.78 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 10,832
'train' 87,622
'validation' 11,313