- תיאור :
TriviaqQA הוא מערך נתונים של הבנת הנקרא המכיל למעלה מ-650,000 משולש שאלות-תשובה-ראיות. TriviaqQA כולל 95,000 צמדי שאלות ותשובות שנכתבו על ידי חובבי טריוויה ומסמכי ראיה שנאספו באופן עצמאי, שישה לשאלה בממוצע, המספקים פיקוח מרחוק באיכות גבוהה לצורך מענה על השאלות.
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : http://nlp.cs.washington.edu/triviaqa/
קוד מקור :
tfds.datasets.trivia_qa.Builder
גרסאות :
-
1.1.0
(ברירת מחדל): אין הערות שחרור.
-
מבנה תכונה :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
תשובה | FeaturesDict | |||
תשובה/כינויים | רצף (טקסט) | (אף אחד,) | חוּט | |
answer/matched_wiki_entity_name | טֶקסט | חוּט | ||
answer/normalized_aliases | רצף (טקסט) | (אף אחד,) | חוּט | |
answer/normalized_matched_wiki_entity_name | טֶקסט | חוּט | ||
answer/normalized_value | טֶקסט | חוּט | ||
תשובה/סוג | טֶקסט | חוּט | ||
תשובה/ערך | טֶקסט | חוּט | ||
דפי_ישות | סדר פעולות | |||
entity_pages/doc_source | טֶקסט | חוּט | ||
entity_pages/שם קובץ | טֶקסט | חוּט | ||
entity_pages/title | טֶקסט | חוּט | ||
entity_pages/wiki_context | טֶקסט | חוּט | ||
שְׁאֵלָה | טֶקסט | חוּט | ||
מזהה_שאלה | טֶקסט | חוּט | ||
שאלה_מקור | טֶקסט | חוּט | ||
תוצאות חיפוש | סדר פעולות | |||
תוצאות_חיפוש/תיאור | טֶקסט | חוּט | ||
תוצאות_חיפוש/שם קובץ | טֶקסט | חוּט | ||
תוצאות_חיפוש/דירוג | מוֹתֵחַ | int32 | ||
search_results/search_context | טֶקסט | חוּט | ||
תוצאות_חיפוש/כותרת | טֶקסט | חוּט | ||
search_results/url | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (תצורת ברירת המחדל)
תיאור תצורה : צמדי שאלה-תשובה כאשר כל המסמכים עבור שאלה נתונה מכילים את מחרוזת התשובות. כולל הקשר מויקיפדיה ותוצאות חיפוש.
גודל הורדה :
2.48 GiB
גודל מערך נתונים :
14.99 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 17,210 |
'train' | 138,384 |
'validation' | 18,669 |
- דוגמאות ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
תיאור תצורה : צמדי שאלה-תשובה כאשר כל המסמכים עבור שאלה נתונה מכילים את מחרוזת התשובות.
גודל הורדה :
2.48 GiB
גודל ערכת נתונים:
196.84 MiB
שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, אימות), רק כאשר
shuffle_files=False
(רכבת)פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 17,210 |
'train' | 138,384 |
'validation' | 18,669 |
- דוגמאות ( tfds.as_dataframe ):
trivia_qa/לא מסונן
תיאור תצורה : 110,000 זוגות שאלות ותשובות עבור QA של דומיין פתוח כאשר לא כל המסמכים עבור שאלה נתונה מכילים את מחרוזת התשובות. זה הופך את מערך הנתונים הלא מסונן למתאים יותר עבור QA בסגנון IR. כולל הקשר מויקיפדיה ותוצאות חיפוש.
גודל הורדה :
3.07 GiB
גודל מערך נתונים :
27.27 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 10,832 |
'train' | 87,622 |
'validation' | 11,313 |
- דוגמאות ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
תיאור תצורה : 110,000 זוגות שאלות ותשובות עבור QA של דומיין פתוח כאשר לא כל המסמכים עבור שאלה נתונה מכילים את מחרוזת התשובות. זה הופך את מערך הנתונים הלא מסונן למתאים יותר עבור QA בסגנון IR.
גודל הורדה :
603.25 MiB
גודל ערכת נתונים:
119.78 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 10,832 |
'train' | 87,622 |
'validation' | 11,313 |
- דוגמאות ( tfds.as_dataframe ):
- תיאור :
TriviaqQA הוא מערך נתונים של הבנת הנקרא המכיל למעלה מ-650,000 משולש שאלות-תשובה-ראיות. TriviaqQA כולל 95,000 צמדי שאלות ותשובות שנכתבו על ידי חובבי טריוויה ומסמכי ראיה שנאספו באופן עצמאי, שישה לשאלה בממוצע, המספקים פיקוח מרחוק באיכות גבוהה לצורך מענה על השאלות.
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : http://nlp.cs.washington.edu/triviaqa/
קוד מקור :
tfds.datasets.trivia_qa.Builder
גרסאות :
-
1.1.0
(ברירת מחדל): אין הערות שחרור.
-
מבנה תכונה :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
תשובה | FeaturesDict | |||
תשובה/כינויים | רצף (טקסט) | (אף אחד,) | חוּט | |
answer/matched_wiki_entity_name | טֶקסט | חוּט | ||
answer/normalized_aliases | רצף (טקסט) | (אף אחד,) | חוּט | |
answer/normalized_matched_wiki_entity_name | טֶקסט | חוּט | ||
answer/normalized_value | טֶקסט | חוּט | ||
תשובה/סוג | טֶקסט | חוּט | ||
תשובה/ערך | טֶקסט | חוּט | ||
דפי_ישות | סדר פעולות | |||
entity_pages/doc_source | טֶקסט | חוּט | ||
entity_pages/שם קובץ | טֶקסט | חוּט | ||
entity_pages/title | טֶקסט | חוּט | ||
entity_pages/wiki_context | טֶקסט | חוּט | ||
שְׁאֵלָה | טֶקסט | חוּט | ||
מזהה_שאלה | טֶקסט | חוּט | ||
שאלה_מקור | טֶקסט | חוּט | ||
תוצאות חיפוש | סדר פעולות | |||
תוצאות_חיפוש/תיאור | טֶקסט | חוּט | ||
תוצאות_חיפוש/שם קובץ | טֶקסט | חוּט | ||
תוצאות_חיפוש/דירוג | מוֹתֵחַ | int32 | ||
search_results/search_context | טֶקסט | חוּט | ||
תוצאות_חיפוש/כותרת | טֶקסט | חוּט | ||
search_results/url | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (תצורת ברירת המחדל)
תיאור תצורה : צמדי שאלה-תשובה כאשר כל המסמכים עבור שאלה נתונה מכילים את מחרוזת התשובות. כולל הקשר מויקיפדיה ותוצאות חיפוש.
גודל הורדה :
2.48 GiB
גודל מערך נתונים :
14.99 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 17,210 |
'train' | 138,384 |
'validation' | 18,669 |
- דוגמאות ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
תיאור תצורה : צמדי שאלה-תשובה כאשר כל המסמכים עבור שאלה נתונה מכילים את מחרוזת התשובות.
גודל הורדה :
2.48 GiB
גודל ערכת נתונים:
196.84 MiB
שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, אימות), רק כאשר
shuffle_files=False
(רכבת)פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 17,210 |
'train' | 138,384 |
'validation' | 18,669 |
- דוגמאות ( tfds.as_dataframe ):
trivia_qa/לא מסונן
תיאור תצורה : 110,000 זוגות שאלות ותשובות עבור QA של דומיין פתוח כאשר לא כל המסמכים עבור שאלה נתונה מכילים את מחרוזת התשובות. זה הופך את מערך הנתונים הלא מסונן למתאים יותר עבור QA בסגנון IR. כולל הקשר מויקיפדיה ותוצאות חיפוש.
גודל הורדה :
3.07 GiB
גודל מערך נתונים :
27.27 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 10,832 |
'train' | 87,622 |
'validation' | 11,313 |
- דוגמאות ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
תיאור תצורה : 110,000 זוגות שאלות ותשובות עבור QA של דומיין פתוח כאשר לא כל המסמכים עבור שאלה נתונה מכילים את מחרוזת התשובות. זה הופך את מערך הנתונים הלא מסונן למתאים יותר עבור QA בסגנון IR.
גודל הורדה :
603.25 MiB
גודל ערכת נתונים:
119.78 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 10,832 |
'train' | 87,622 |
'validation' | 11,313 |
- דוגמאות ( tfds.as_dataframe ):