q_re_cc

  • विवरण :

81K सवाल-जवाब जोड़े के साथ 14K बातचीत वाला डेटासेट। क्यूआरईसीसी को टीआरईसी सीएएसटी, क्यूएसी और गूगल नेचुरल सवालों के सवालों पर तैयार किया गया है।

विभाजित करना उदाहरण
'test' 16,451
'train' 63,501
  • फ़ीचर संरचना :
FeaturesDict({
    'answer': Text(shape=(), dtype=string),
    'answer_url': Text(shape=(), dtype=string),
    'context': Sequence(Text(shape=(), dtype=string)),
    'conversation_id': Scalar(shape=(), dtype=int32),
    'question': Text(shape=(), dtype=string),
    'question_rewrite': Text(shape=(), dtype=string),
    'source': Text(shape=(), dtype=string),
    'turn_id': Scalar(shape=(), dtype=int32),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
उत्तर मूलपाठ डोरी
answer_url मूलपाठ डोरी
संदर्भ अनुक्रम (पाठ) (कोई भी नहीं,) डोरी
बातचीत_आईडी अदिश int32 बातचीत की आईडी।
प्रश्न मूलपाठ डोरी
प्रश्न_पुनर्लेखन मूलपाठ डोरी
स्रोत मूलपाठ डोरी डेटा का मूल स्रोत -- या तो QuAC, CAsT या प्राकृतिक प्रश्न
टर्न_आईडी अदिश int32 बातचीत के भीतर, बातचीत की आईडी बदल जाती है।
  • उद्धरण :
@article{qrecc,
  title={Open-Domain Question Answering Goes Conversational via Question Rewriting},
  author={Anantha, Raviteja and Vakulenko, Svitlana and Tu, Zhucheng and Longpre, Shayne and Pulman, Stephen and Chappidi, Srinivas},
  journal={Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  year={2021}
}