tydi_qa

  • 설명 :

TyDi QA는 204K 질문-답변 쌍이 있는 11개의 유형학적으로 다양한 언어를 다루는 질문 응답 데이터 세트입니다. TyDi QA의 언어는 유형학(각 언어가 표현하는 언어적 특징 집합)과 관련하여 다양하므로 이 집합에서 잘 작동하는 모델이 전 세계 많은 언어에 걸쳐 일반화될 것으로 기대합니다. 영어 전용 말뭉치에서는 볼 수 없는 언어 현상이 포함되어 있습니다. 현실적인 정보 탐색 작업을 제공하고 프라이밍 효과를 피하기 위해 답을 알고 싶지만 아직 답을 모르는 사람들이 질문을 작성하고(SQuAD 및 그 자손과 달리) 데이터는 각 언어로 직접 수집됩니다. 번역을 사용하지 않습니다(MLQA 및 XQuAD와 달리).

교육 분할:

'train': 원래 언어로 레이블이 지정된 교육 데이터가 있는 원본 TyDi QA 논문[ https://arxiv.org/abs/2003.05002 ]의 GoldP 작업입니다.

'translate-train-*': 이러한 분할은 XTREME 논문[ https://arxiv.org/abs/2003.11080 ]의 translate-train 기준선에 사용된 영어에서 각 대상 언어로의 자동 번역입니다. 이는 원래 언어 데이터를 사용할 수 없고 시스템 빌더가 레이블이 지정된 영어 데이터와 기존 기계 번역 시스템에 의존해야 하는 전이 학습 시나리오를 시뮬레이션하기 위해 영어가 아닌 TyDiQA-GoldP 교육 데이터를 의도적으로 무시합니다.

일반적으로 기차 또는 번역-열 분할 중 하나를 사용해야 하지만 둘 다 사용할 수는 없습니다.

나뉘다
'train' 49,881
'translate-train-ar' 3,661
'translate-train-bn' 3,585
'translate-train-fi' 3,670
'translate-train-id' 3,667
'translate-train-ko' 3,607
'translate-train-ru' 3,394
'translate-train-sw' 3,622
'translate-train-te' 3,658
'validation' 5,077
'validation-ar' 921
'validation-bn' 113
'validation-en' 440
'validation-fi' 782
'validation-id' 565
'validation-ko' 276
'validation-ru' 812
'validation-sw' 499
'validation-te' 669
  • 기능 구조 :
FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
답변 순서
답변/answer_start 텐서 int32
답변/텍스트 텍스트
문맥 텍스트
ID 텐서
의문 텍스트
제목 텍스트
  • 인용 :
@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa/goldp(기본 구성)