trivia_qa

  • Mô tả :

TriviaqQA là bộ dữ liệu đọc hiểu chứa hơn 650 nghìn bộ ba câu hỏi-câu trả lời-bằng chứng. TriviaqQA bao gồm 95 nghìn cặp câu hỏi-câu trả lời do những người đam mê câu đố soạn thảo và các tài liệu bằng chứng được thu thập độc lập, trung bình sáu cặp cho mỗi câu hỏi, cung cấp khả năng giám sát từ xa chất lượng cao để trả lời các câu hỏi.

FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_value': Text(shape=(), dtype=string),
        'type': Text(shape=(), dtype=string),
        'value': Text(shape=(), dtype=string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'wiki_context': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'question_id': Text(shape=(), dtype=string),
    'question_source': Text(shape=(), dtype=string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'rank': int32,
        'search_context': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Tính năngDict
trả lời Tính năngDict
câu trả lời/bí danh Trình tự (Văn bản) (Không có,) sợi dây
câu trả lời/matched_wiki_entity_name Chữ sợi dây
câu trả lời/chuẩn hóa_aliases Trình tự (Văn bản) (Không có,) sợi dây
câu trả lời/chuẩn hóa_matched_wiki_entity_name Chữ sợi dây
câu trả lời/giá trị chuẩn hóa Chữ sợi dây
câu trả lời/gõ Chữ sợi dây
câu trả lời/giá trị Chữ sợi dây
thực thể_trang Sự liên tiếp
entity_pages/doc_source Chữ sợi dây
thực thể_trang/tên tệp Chữ sợi dây
thực thể_trang/tiêu đề Chữ sợi dây
entity_pages/wiki_context Chữ sợi dây
câu hỏi Chữ sợi dây
question_id Chữ sợi dây
câu hỏi_nguồn Chữ sợi dây
kết quả tìm kiếm Sự liên tiếp
search_results/mô tả Chữ sợi dây
search_results/tên tệp Chữ sợi dây
kết quả tìm kiếm/xếp hạng tenxơ int32
search_results/search_context Chữ sợi dây
search_results/title Chữ sợi dây
search_results/url Chữ sợi dây
@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa/rc (cấu hình mặc định)

  • Mô tả cấu hình : Các cặp câu hỏi-câu trả lời trong đó tất cả các tài liệu cho một câu hỏi nhất định đều chứa (các) chuỗi câu trả lời. Bao gồm ngữ cảnh từ Wikipedia và kết quả tìm kiếm.

  • Kích thước tải xuống : 2.48 GiB

  • Kích thước tập dữ liệu : 14.99 GiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'test' 17,210
'train' 138,384
'validation' 18,669

trivia_qa/rc.nocontext

  • Mô tả cấu hình : Các cặp câu hỏi-câu trả lời trong đó tất cả các tài liệu cho một câu hỏi nhất định đều chứa (các) chuỗi câu trả lời.

  • Kích thước tải xuống : 2.48 GiB

  • Kích thước tập dữ liệu : 196.84 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi shuffle_files=False (đào tạo)

  • Chia tách :

Tách ra ví dụ
'test' 17,210
'train' 138,384
'validation' 18,669

trivia_qa/chưa lọc

  • Mô tả cấu hình : 110 nghìn cặp câu hỏi-câu trả lời cho QA miền mở trong đó không phải tất cả tài liệu cho một câu hỏi nhất định đều chứa (các) chuỗi câu trả lời. Điều này làm cho tập dữ liệu chưa được lọc phù hợp hơn với QA kiểu IR. Bao gồm ngữ cảnh từ Wikipedia và kết quả tìm kiếm.

  • Kích thước tải xuống : 3.07 GiB

  • Kích thước tập dữ liệu : 27.27 GiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'test' 10,832
'train' 87,622
'validation' 11,313

trivia_qa/unfiltered.nocontext

  • Mô tả cấu hình : 110 nghìn cặp câu hỏi-câu trả lời cho QA miền mở trong đó không phải tất cả tài liệu cho một câu hỏi nhất định đều chứa (các) chuỗi câu trả lời. Điều này làm cho tập dữ liệu chưa được lọc phù hợp hơn với QA kiểu IR.

  • Kích thước tải xuống : 603.25 MiB

  • Kích thước tập dữ liệu : 119.78 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 10,832
'train' 87,622
'validation' 11,313
,

  • Mô tả :

TriviaqQA là bộ dữ liệu đọc hiểu chứa hơn 650 nghìn bộ ba câu hỏi-câu trả lời-bằng chứng. TriviaqQA bao gồm 95 nghìn cặp câu hỏi-câu trả lời do những người đam mê câu đố soạn thảo và các tài liệu bằng chứng được thu thập độc lập, trung bình sáu cặp cho mỗi câu hỏi, cung cấp khả năng giám sát từ xa chất lượng cao để trả lời các câu hỏi.

FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_value': Text(shape=(), dtype=string),
        'type': Text(shape=(), dtype=string),
        'value': Text(shape=(), dtype=string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'wiki_context': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'question_id': Text(shape=(), dtype=string),
    'question_source': Text(shape=(), dtype=string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'rank': int32,
        'search_context': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Tính năngDict
trả lời Tính năngDict
câu trả lời/bí danh Trình tự (Văn bản) (Không có,) sợi dây
câu trả lời/matched_wiki_entity_name Chữ sợi dây
câu trả lời/chuẩn hóa_aliases Trình tự (Văn bản) (Không có,) sợi dây
câu trả lời/chuẩn hóa_matched_wiki_entity_name Chữ sợi dây
câu trả lời/giá trị chuẩn hóa Chữ sợi dây
câu trả lời/gõ Chữ sợi dây
câu trả lời/giá trị Chữ sợi dây
thực thể_trang Sự liên tiếp
entity_pages/doc_source Chữ sợi dây
thực thể_trang/tên tệp Chữ sợi dây
thực thể_trang/tiêu đề Chữ sợi dây
entity_pages/wiki_context Chữ sợi dây
câu hỏi Chữ sợi dây
question_id Chữ sợi dây
câu hỏi_nguồn Chữ sợi dây
kết quả tìm kiếm Sự liên tiếp
search_results/mô tả Chữ sợi dây
search_results/tên tệp Chữ sợi dây
kết quả tìm kiếm/xếp hạng tenxơ int32
search_results/search_context Chữ sợi dây
search_results/title Chữ sợi dây
search_results/url Chữ sợi dây
@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa/rc (cấu hình mặc định)

  • Mô tả cấu hình : Các cặp câu hỏi-câu trả lời trong đó tất cả các tài liệu cho một câu hỏi nhất định đều chứa (các) chuỗi câu trả lời. Bao gồm ngữ cảnh từ Wikipedia và kết quả tìm kiếm.

  • Kích thước tải xuống : 2.48 GiB

  • Kích thước tập dữ liệu : 14.99 GiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'test' 17,210
'train' 138,384
'validation' 18,669

trivia_qa/rc.nocontext

  • Mô tả cấu hình : Các cặp câu hỏi-câu trả lời trong đó tất cả các tài liệu cho một câu hỏi nhất định đều chứa (các) chuỗi câu trả lời.

  • Kích thước tải xuống : 2.48 GiB

  • Kích thước tập dữ liệu : 196.84 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi shuffle_files=False (đào tạo)

  • Chia tách :

Tách ra ví dụ
'test' 17,210
'train' 138,384
'validation' 18,669

trivia_qa/chưa lọc

  • Mô tả cấu hình : 110 nghìn cặp câu hỏi-câu trả lời cho QA miền mở trong đó không phải tất cả tài liệu cho một câu hỏi nhất định đều chứa (các) chuỗi câu trả lời. Điều này làm cho tập dữ liệu chưa được lọc phù hợp hơn với QA kiểu IR. Bao gồm ngữ cảnh từ Wikipedia và kết quả tìm kiếm.

  • Kích thước tải xuống : 3.07 GiB

  • Kích thước tập dữ liệu : 27.27 GiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'test' 10,832
'train' 87,622
'validation' 11,313

trivia_qa/unfiltered.nocontext

  • Mô tả cấu hình : 110 nghìn cặp câu hỏi-câu trả lời cho QA miền mở trong đó không phải tất cả tài liệu cho một câu hỏi nhất định đều chứa (các) chuỗi câu trả lời. Điều này làm cho tập dữ liệu chưa được lọc phù hợp hơn với QA kiểu IR.

  • Kích thước tải xuống : 603.25 MiB

  • Kích thước tập dữ liệu : 119.78 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 10,832
'train' 87,622
'validation' 11,313