q_re_cc

  • תיאור :

מערך נתונים המכיל 14K שיחות עם 81K צמדי שאלות ותשובות. QReCC בנוי על שאלות של TREC CAsT, QuAC ו-Google Natural Questions.

לְפַצֵל דוגמאות
'test' 16,451
'train' 63,501
  • מבנה תכונה :
FeaturesDict({
    'answer': Text(shape=(), dtype=string),
    'answer_url': Text(shape=(), dtype=string),
    'context': Sequence(Text(shape=(), dtype=string)),
    'conversation_id': Scalar(shape=(), dtype=int32),
    'question': Text(shape=(), dtype=string),
    'question_rewrite': Text(shape=(), dtype=string),
    'source': Text(shape=(), dtype=string),
    'turn_id': Scalar(shape=(), dtype=int32),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תשובה טֶקסט חוּט
answer_url טֶקסט חוּט
הֶקשֵׁר רצף (טקסט) (אף אחד,) חוּט
שיחה_מזהה סקלר int32 מזהה השיחה.
שְׁאֵלָה טֶקסט חוּט
שאלה_שכתוב טֶקסט חוּט
מָקוֹר טֶקסט חוּט המקור המקורי של הנתונים - QuAC, CAsT או Natural Questions
turn_id סקלר int32 המזהה של סיבוב השיחה, בתוך שיחה.
  • ציטוט :
@article{qrecc,
  title={Open-Domain Question Answering Goes Conversational via Question Rewriting},
  author={Anantha, Raviteja and Vakulenko, Svitlana and Tu, Zhucheng and Longpre, Shayne and Pulman, Stephen and Chappidi, Srinivas},
  journal={Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  year={2021}
}