câu hỏi_ tự nhiên

  • Mô tả :

Kho văn bản NQ chứa các câu hỏi từ người dùng thực và nó yêu cầu hệ thống QA đọc và hiểu toàn bộ bài viết Wikipedia có thể chứa hoặc không chứa câu trả lời cho câu hỏi. Việc bao gồm các câu hỏi của người dùng thực và yêu cầu rằng các giải pháp phải đọc toàn bộ trang để tìm câu trả lời, khiến NQ trở thành một nhiệm vụ thực tế và thách thức hơn so với các bộ dữ liệu QA trước đó.

Tách ra ví dụ
'train' 307,373
'validation' 7.830
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}

natural_questions/default (cấu hình mặc định)

  • Mô tả cấu hình : Cấu hình natural_questions mặc định

  • Kích thước tập dữ liệu : 90.26 GiB

  • Cấu trúc tính năng :

FeaturesDict({
    'annotations': Sequence({
        'id': string,
        'long_answer': FeaturesDict({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
        }),
        'short_answers': Sequence({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
            'text': Text(shape=(), dtype=string),
        }),
        'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
    }),
    'document': FeaturesDict({
        'html': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'tokens': Sequence({
            'is_html': bool,
            'token': Text(shape=(), dtype=string),
        }),
        'url': Text(shape=(), dtype=string),
    }),
    'id': string,
    'question': FeaturesDict({
        'text': Text(shape=(), dtype=string),
        'tokens': Sequence(string),
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Tính năngDict
chú thích Sự liên tiếp
chú thích/id tenxơ sợi dây
chú thích/long_answer Tính năngDict
chú thích/long_answer/end_byte tenxơ int64
chú thích/long_answer/end_token tenxơ int64
chú thích/long_answer/start_byte tenxơ int64
chú thích/long_answer/start_token tenxơ int64
chú thích/short_answers Sự liên tiếp
chú thích/short_answers/end_byte tenxơ int64
chú thích/short_answers/end_token tenxơ int64
chú thích/short_answers/start_byte tenxơ int64
chú thích/short_answers/start_token tenxơ int64
chú thích/short_answers/văn bản Chữ sợi dây
chú thích/yes_no_answer LớpNhãn int64
tài liệu Tính năngDict
tài liệu/html Chữ sợi dây
tiêu đề tài liệu Chữ sợi dây
tài liệu/mã thông báo Sự liên tiếp
tài liệu/mã thông báo/is_html tenxơ bool
tài liệu/mã thông báo/mã thông báo Chữ sợi dây
tài liệu/url Chữ sợi dây
nhận dạng tenxơ sợi dây
câu hỏi Tính năngDict
câu hỏi/văn bản Chữ sợi dây
câu hỏi/mã thông báo Trình tự (Tensor) (Không có,) sợi dây

natural_questions/longt5

  • Mô tả cấu hình : natural_questions được xử lý trước như trong điểm chuẩn longT5

  • Kích thước tập dữ liệu : 8.91 GiB

  • Cấu trúc tính năng :

FeaturesDict({
    'all_answers': Sequence(Text(shape=(), dtype=string)),
    'answer': Text(shape=(), dtype=string),
    'context': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Tính năngDict
all_answers Trình tự (Văn bản) (Không có,) sợi dây
trả lời Chữ sợi dây
bối cảnh Chữ sợi dây
nhận dạng Chữ sợi dây
câu hỏi Chữ sợi dây
tiêu đề Chữ sợi dây