분대

  • 설명 :

Stanford Question Answering Dataset(SQuAD)는 Wikipedia 기사 세트에서 크라우드 워커가 제기한 질문으로 구성된 읽기 이해 데이터 세트입니다. 여기서 모든 질문에 대한 답변은 해당 읽기 구절 또는 질문의 텍스트 세그먼트 또는 범위입니다. 답이 없을 수도 있습니다.

@article{2016arXiv160605250R,
       author = { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
                 Konstantin and {Liang}, Percy},
        title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
      journal = {arXiv e-prints},
         year = 2016,
          eid = {arXiv:1606.05250},
        pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
       eprint = {1606.05250},
}

squad/v1.1(기본 구성)

  • 구성 설명 : SQUAD 버전 1.1.0

  • 다운로드 크기 : 33.51 MiB

  • 데이터 세트 크기 : 94.06 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'train' 87,599
'validation' 10,570
  • 기능 구조 :
FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
대답 순서
답변/answer_start 텐서 int32
답변/텍스트 텍스트
문맥 텍스트
ID 텐서
문제 텍스트
제목 텍스트

분대/v2.0

  • 구성 설명 : SQUAD 버전 2.0.0

  • 다운로드 크기 : 44.34 MiB

  • 데이터 세트 크기 : 148.54 MiB

  • 자동 캐시 됨( 문서 ): 예(검증), shuffle_files=False 인 경우에만(훈련)

  • 분할 :

나뉘다
'train' 130,319
'validation' 11,873
  • 기능 구조 :
FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'is_impossible': bool,
    'plausible_answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
대답 순서
답변/answer_start 텐서 int32
답변/텍스트 텍스트
문맥 텍스트
ID 텐서
불가능하다 텐서 부울
그럴듯한_답변 순서
그럴듯한_답변/answer_start 텐서 int32
그럴듯한_답변/텍스트 텍스트
문제 텍스트
제목 텍스트