trivia_qa

  • 설명 :

TriviaqQA는 650,000개 이상의 질문-답변-증거 트리플을 포함하는 독해력 데이터 세트입니다. TriviaqQA에는 퀴즈 애호가가 작성한 95,000개의 질문-답변 쌍과 독립적으로 수집한 증거 문서(질문당 평균 6개)가 포함되어 질문에 답하기 위한 고품질 원거리 감독을 제공합니다.

FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_value': Text(shape=(), dtype=string),
        'type': Text(shape=(), dtype=string),
        'value': Text(shape=(), dtype=string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'wiki_context': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'question_id': Text(shape=(), dtype=string),
    'question_source': Text(shape=(), dtype=string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'rank': int32,
        'search_context': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
답변 풍모Dict
답변/별칭 시퀀스(텍스트) (없음,)
답변/matched_wiki_entity_name 텍스트
답변/정규화된_별칭 시퀀스(텍스트) (없음,)
답변/normalized_matched_wiki_entity_name 텍스트
답변/정규화된_값 텍스트
답변/유형 텍스트
답변/가치 텍스트
entity_pages 순서
entity_pages/doc_source 텍스트
entity_pages/파일 이름 텍스트
entity_pages/제목 텍스트
entity_pages/wiki_context 텍스트
질문 텍스트
question_id 텍스트
질문_출처 텍스트
검색 결과 순서
검색 결과/설명 텍스트
search_results/파일 이름 텍스트
검색_결과/순위 텐서 int32
search_results/search_context 텍스트
검색_결과/제목 텍스트
검색 결과/URL 텍스트
@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa/rc(기본 구성)

  • 구성 설명 : 주어진 질문에 대한 모든 문서에 답변 문자열이 포함된 질문-답변 쌍입니다. Wikipedia 및 검색 결과의 컨텍스트를 포함합니다.

  • 다운로드 크기 : 2.48 GiB

  • 데이터세트 크기 : 14.99 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 17,210
'train' 138,384
'validation' 18,669

trivia_qa/rc.nocontext

  • 구성 설명 : 주어진 질문에 대한 모든 문서에 답변 문자열이 포함된 질문-답변 쌍입니다.

  • 다운로드 크기 : 2.48 GiB

  • 데이터 세트 크기 : 196.84 MiB

  • 자동 캐싱 ( 문서 ): 예(테스트, 검증), shuffle_files=False 인 경우에만(훈련)

  • 분할 :

나뉘다
'test' 17,210
'train' 138,384
'validation' 18,669

trivia_qa/unfiltered

  • 구성 설명 : 주어진 질문에 대한 모든 문서에 답변 문자열이 포함되어 있지 않은 오픈 도메인 QA에 대한 110k 질문-답변 쌍. 이렇게 하면 필터링되지 않은 데이터 세트가 IR 스타일 QA에 더 적합합니다. Wikipedia 및 검색 결과의 컨텍스트를 포함합니다.

  • 다운로드 크기 : 3.07 GiB

  • 데이터세트 크기 : 27.27 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 10,832
'train' 87,622
'validation' 11,313

trivia_qa/unfiltered.nocontext

  • 구성 설명 : 주어진 질문에 대한 모든 문서에 답변 문자열이 포함되어 있지 않은 오픈 도메인 QA에 대한 110k 질문-답변 쌍. 이렇게 하면 필터링되지 않은 데이터 세트가 IR 스타일 QA에 더 적합합니다.

  • 다운로드 크기 : 603.25 MiB

  • 데이터 세트 크기 : 119.78 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 10,832
'train' 87,622
'validation' 11,313
,

  • 설명 :

TriviaqQA는 650,000개 이상의 질문-답변-증거 트리플을 포함하는 독해력 데이터 세트입니다. TriviaqQA에는 퀴즈 애호가가 작성한 95,000개의 질문-답변 쌍과 독립적으로 수집한 증거 문서(질문당 평균 6개)가 포함되어 질문에 답하기 위한 고품질 원거리 감독을 제공합니다.

FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_value': Text(shape=(), dtype=string),
        'type': Text(shape=(), dtype=string),
        'value': Text(shape=(), dtype=string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'wiki_context': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'question_id': Text(shape=(), dtype=string),
    'question_source': Text(shape=(), dtype=string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'rank': int32,
        'search_context': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
답변 풍모Dict
답변/별칭 시퀀스(텍스트) (없음,)
답변/matched_wiki_entity_name 텍스트
답변/정규화된_별칭 시퀀스(텍스트) (없음,)
답변/normalized_matched_wiki_entity_name 텍스트
답변/정규화된_값 텍스트
답변/유형 텍스트
답변/가치 텍스트
entity_pages 순서
entity_pages/doc_source 텍스트
entity_pages/파일 이름 텍스트
entity_pages/제목 텍스트
entity_pages/wiki_context 텍스트
질문 텍스트
question_id 텍스트
질문_출처 텍스트
검색 결과 순서
검색 결과/설명 텍스트
search_results/파일 이름 텍스트
검색_결과/순위 텐서 int32
search_results/search_context 텍스트
검색_결과/제목 텍스트
검색 결과/URL 텍스트
@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa/rc(기본 구성)

  • 구성 설명 : 주어진 질문에 대한 모든 문서에 답변 문자열이 포함된 질문-답변 쌍입니다. Wikipedia 및 검색 결과의 컨텍스트를 포함합니다.

  • 다운로드 크기 : 2.48 GiB

  • 데이터세트 크기 : 14.99 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 17,210
'train' 138,384
'validation' 18,669

trivia_qa/rc.nocontext

  • 구성 설명 : 주어진 질문에 대한 모든 문서에 답변 문자열이 포함된 질문-답변 쌍입니다.

  • 다운로드 크기 : 2.48 GiB

  • 데이터 세트 크기 : 196.84 MiB

  • 자동 캐싱 ( 문서 ): 예(테스트, 검증), shuffle_files=False 인 경우에만(훈련)

  • 분할 :

나뉘다
'test' 17,210
'train' 138,384
'validation' 18,669

trivia_qa/unfiltered

  • 구성 설명 : 주어진 질문에 대한 모든 문서에 답변 문자열이 포함되어 있지 않은 오픈 도메인 QA에 대한 110k 질문-답변 쌍. 이렇게 하면 필터링되지 않은 데이터 세트가 IR 스타일 QA에 더 적합합니다. Wikipedia 및 검색 결과의 컨텍스트를 포함합니다.

  • 다운로드 크기 : 3.07 GiB

  • 데이터세트 크기 : 27.27 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 10,832
'train' 87,622
'validation' 11,313

trivia_qa/unfiltered.nocontext

  • 구성 설명 : 주어진 질문에 대한 모든 문서에 답변 문자열이 포함되어 있지 않은 오픈 도메인 QA에 대한 110k 질문-답변 쌍. 이렇게 하면 필터링되지 않은 데이터 세트가 IR 스타일 QA에 더 적합합니다.

  • 다운로드 크기 : 603.25 MiB

  • 데이터 세트 크기 : 119.78 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 10,832
'train' 87,622
'validation' 11,313