- תיאור :
מערך נתונים המכיל 14K שיחות עם 81K צמדי שאלות ותשובות. QReCC בנוי על שאלות של TREC CAsT, QuAC ו-Google Natural Questions.
דף הבית : https://github.com/apple/ml-qrecc
קוד מקור :
tfds.text.qrecc.QReCC
גרסאות :
-
1.0.0
(ברירת מחדל): שחרור ראשוני.
-
גודל הורדה :
7.60 MiB
גודל ערכת נתונים :
69.29 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 16,451 |
'train' | 63,501 |
- מבנה תכונה :
FeaturesDict({
'answer': Text(shape=(), dtype=string),
'answer_url': Text(shape=(), dtype=string),
'context': Sequence(Text(shape=(), dtype=string)),
'conversation_id': Scalar(shape=(), dtype=int32, description=The id of the conversation.),
'question': Text(shape=(), dtype=string),
'question_rewrite': Text(shape=(), dtype=string),
'source': Text(shape=(), dtype=string),
'turn_id': Scalar(shape=(), dtype=int32, description=The id of the conversation turn, within a conversation.),
})
- תיעוד תכונה :
תכונה | מַחלָקָה | צוּרָה | Dtype | תֵאוּר |
---|---|---|---|---|
FeaturesDict | ||||
תְשׁוּבָה | טֶקסט | חוּט | ||
answer_url | טֶקסט | חוּט | ||
הֶקשֵׁר | רצף (טקסט) | (אַף לֹא אֶחָד,) | חוּט | |
שיחה_מזהה | סקלר | int32 | מזהה השיחה. | |
שְׁאֵלָה | טֶקסט | חוּט | ||
שאלה_שכתוב | טֶקסט | חוּט | ||
מָקוֹר | טֶקסט | חוּט | המקור המקורי של הנתונים - QuAC, CAsT או Natural Questions | |
turn_id | סקלר | int32 | המזהה של סיבוב השיחה, בתוך שיחה. |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@article{qrecc,
title={Open-Domain Question Answering Goes Conversational via Question Rewriting},
author={Anantha, Raviteja and Vakulenko, Svitlana and Tu, Zhucheng and Longpre, Shayne and Pulman, Stephen and Chappidi, Srinivas},
journal={Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
year={2021}
}