q_re_cc

  • 설명 :

81,000개의 질문-답변 쌍이 있는 14,000개의 대화가 포함된 데이터 세트입니다. QReCC는 TREC CAST, QuAC 및 Google Natural Questions의 질문을 기반으로 합니다.

나뉘다
'test' 16,451
'train' 63,501
  • 기능 구조 :
FeaturesDict({
    'answer': Text(shape=(), dtype=string),
    'answer_url': Text(shape=(), dtype=string),
    'context': Sequence(Text(shape=(), dtype=string)),
    'conversation_id': Scalar(shape=(), dtype=int32),
    'question': Text(shape=(), dtype=string),
    'question_rewrite': Text(shape=(), dtype=string),
    'source': Text(shape=(), dtype=string),
    'turn_id': Scalar(shape=(), dtype=int32),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
대답 텍스트
답변_URL 텍스트
문맥 시퀀스(텍스트) (없음,)
conversation_id 스칼라 int32 대화의 ID입니다.
문제 텍스트
질문_재작성 텍스트
원천 텍스트 데이터의 원래 출처 -- QuAC, CAT 또는 Natural Questions
turn_id 스칼라 int32 대화 내 대화 차례의 ID입니다.
  • 인용 :
@article{qrecc,
  title={Open-Domain Question Answering Goes Conversational via Question Rewriting},
  author={Anantha, Raviteja and Vakulenko, Svitlana and Tu, Zhucheng and Longpre, Shayne and Pulman, Stephen and Chappidi, Srinivas},
  journal={Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  year={2021}
}