q_re_cc

  • Descriptif :

Un ensemble de données contenant 14 000 conversations avec 81 000 paires de questions-réponses. QReCC est construit sur des questions de TREC CAsT, QuAC et Google Natural Questions.

Diviser Exemples
'test' 16 451
'train' 63 501
  • Structure des fonctionnalités :
FeaturesDict({
    'answer': Text(shape=(), dtype=string),
    'answer_url': Text(shape=(), dtype=string),
    'context': Sequence(Text(shape=(), dtype=string)),
    'conversation_id': Scalar(shape=(), dtype=int32),
    'question': Text(shape=(), dtype=string),
    'question_rewrite': Text(shape=(), dtype=string),
    'source': Text(shape=(), dtype=string),
    'turn_id': Scalar(shape=(), dtype=int32),
})
  • Documentation des fonctionnalités :
Caractéristique Classe Façonner Dtype Description
FonctionnalitésDict
répondre Texte chaîne de caractères
answer_url Texte chaîne de caractères
contexte Séquence (texte) (Aucun,) chaîne de caractères
conversation_id Scalaire int32 L'identifiant de la conversation.
question Texte chaîne de caractères
question_rewrite Texte chaîne de caractères
la source Texte chaîne de caractères La source originale des données -- soit QuAC, CAsT ou Natural Questions
turn_id Scalaire int32 L'identifiant du tour de conversation, au sein d'une conversation.
  • Citation :
@article{qrecc,
  title={Open-Domain Question Answering Goes Conversational via Question Rewriting},
  author={Anantha, Raviteja and Vakulenko, Svitlana and Tu, Zhucheng and Longpre, Shayne and Pulman, Stephen and Chappidi, Srinivas},
  journal={Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  year={2021}
}