q_re_cc

  • الوصف :

مجموعة بيانات تحتوي على 14 ألف محادثة مع 81 ألف زوج من الأسئلة والأجوبة. تم بناء QReCC على أسئلة من TREC CAsT و QuAC و Google Natural Questions.

  • الصفحة الرئيسية : https://github.com/apple/ml-qrecc

  • كود المصدر : tfds.text.qrecc.QReCC

  • إصدارات :

    • 1.0.0 (افتراضي): الإصدار الأولي.
  • حجم التحميل : 7.60 MiB

  • حجم مجموعة البيانات : 69.29 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 16451
'train' 63501
  • هيكل الميزة :
FeaturesDict({
    'answer': Text(shape=(), dtype=string),
    'answer_url': Text(shape=(), dtype=string),
    'context': Sequence(Text(shape=(), dtype=string)),
    'conversation_id': Scalar(shape=(), dtype=int32),
    'question': Text(shape=(), dtype=string),
    'question_rewrite': Text(shape=(), dtype=string),
    'source': Text(shape=(), dtype=string),
    'turn_id': Scalar(shape=(), dtype=int32),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
إجابه نص سلسلة
answer_url نص سلسلة
سياق الكلام تسلسل (نص) (لا أحد،) سلسلة
Convers_id العددية int32 معرف المحادثة.
سؤال نص سلسلة
سؤال_الجملة نص سلسلة
مصدر نص سلسلة المصدر الأصلي للبيانات - إما QuAC أو CAsT أو Natural Questions
turn_id العددية int32 يتحول معرف المحادثة ، ضمن محادثة.
  • الاقتباس :
@article{qrecc,
  title={Open-Domain Question Answering Goes Conversational via Question Rewriting},
  author={Anantha, Raviteja and Vakulenko, Svitlana and Tu, Zhucheng and Longpre, Shayne and Pulman, Stephen and Chappidi, Srinivas},
  journal={Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  year={2021}
}