하락

  • 설명 :

기존 독해 벤치마크의 시스템 성능이 사람의 성능에 근접하거나 능가하는 상황에서 텍스트 단락을 실제로 읽을 수 있는 시스템의 기능을 향상시키는 새로운 하드 데이터 세트가 필요합니다. DROP은 적대적으로 생성된 96,000개 질문으로 구성된 크라우드 소싱 벤치마크로, 시스템은 질문에서 여러 입력 위치에 대한 참조를 해결하고 여기에 대해 개별 작업(예: 추가, 계산 또는 정렬)을 수행해야 합니다. 이러한 작업에는 이전 데이터 세트에 필요한 것보다 단락 내용에 대한 훨씬 더 포괄적인 이해가 필요합니다.

나뉘다
'dev' 9,536
'train' 77,409
  • 기능 구조 :
FeaturesDict({
    'answer': Text(shape=(), dtype=string),
    'passage': Text(shape=(), dtype=string),
    'query_id': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
    'validated_answers': Sequence(Text(shape=(), dtype=string)),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
대답 텍스트
통로 텍스트
query_id 텍스트
의문 텍스트
validation_answers 시퀀스(텍스트) (없음,)
  • 인용 :
@inproceedings{Dua2019DROP,
  author={Dheeru Dua and Yizhong Wang and Pradeep Dasigi and Gabriel Stanovsky and Sameer Singh and Matt Gardner},
  title={  {DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs},
  booktitle={Proc. of NAACL},
  year={2019}
}