Uni_qa

  • Mô tả :

Điểm chuẩn UnifiedQA bao gồm 20 bộ dữ liệu trả lời câu hỏi (QA) chính (mỗi bộ có thể có nhiều phiên bản) hướng đến các định dạng khác nhau cũng như các hiện tượng ngôn ngữ phức tạp khác nhau. Các bộ dữ liệu này được nhóm thành một số định dạng/danh mục, bao gồm: QA khai thác, QA trừu tượng, QA trắc nghiệm và QA có/không. Ngoài ra, các bộ tương phản được sử dụng cho một số bộ dữ liệu (được biểu thị bằng " bộ tương phản"). Các bộ đánh giá này là các nhiễu loạn do chuyên gia tạo ra, khác với các mẫu phổ biến trong tập dữ liệu gốc. Đối với một số bộ dữ liệu không đi kèm với các đoạn bằng chứng, hai biến thể được bao gồm: một biến thể trong đó các bộ dữ liệu được sử dụng nguyên trạng và một biến thể khác sử dụng các đoạn được tìm nạp thông qua hệ thống truy xuất thông tin làm bằng chứng bổ sung, được biểu thị bằng thẻ "_ir".

Thông tin thêm có thể được tìm thấy tại: https://github.com/allenai/unifiedqa

FeaturesDict({
    'input': string,
    'output': string,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
đầu vào tenxơ sợi dây
đầu ra tenxơ sợi dây

unity_qa/ai2_science_elementary (cấu hình mặc định)

  • Mô tả cấu hình : Bộ dữ liệu Câu hỏi Khoa học AI2 bao gồm các câu hỏi được sử dụng trong đánh giá học sinh ở Hoa Kỳ ở các cấp lớp tiểu học và trung học cơ sở. Mỗi câu hỏi là định dạng trắc nghiệm 4 chiều và có thể có hoặc không có yếu tố sơ đồ. Bộ này gồm các câu hỏi dùng cho các cấp học tiểu học.

  • Kích thước tải xuống : 345.59 KiB

  • Kích thước tập dữ liệu : 390.02 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 542
'train' 623
'validation' 123
  • trích dẫn :
http://data.allenai.org/ai2-science-questions

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/ai2_science_middle

  • Mô tả cấu hình : Bộ dữ liệu Câu hỏi Khoa học AI2 bao gồm các câu hỏi được sử dụng trong đánh giá học sinh ở Hoa Kỳ ở các cấp lớp tiểu học và trung học cơ sở. Mỗi câu hỏi là định dạng trắc nghiệm 4 chiều và có thể có hoặc không có yếu tố sơ đồ. Bộ này bao gồm các câu hỏi được sử dụng cho các cấp học trung học cơ sở.

  • Kích thước tải xuống : 428.41 KiB

  • Kích thước tập dữ liệu : 477.40 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 679
'train' 605
'validation' 125
  • trích dẫn :
http://data.allenai.org/ai2-science-questions

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/ambigqa

  • Mô tả cấu hình : AmbigQA là một nhiệm vụ trả lời câu hỏi miền mở bao gồm việc tìm kiếm mọi câu trả lời hợp lý, sau đó viết lại câu hỏi cho từng câu hỏi để giải quyết sự mơ hồ.

  • Kích thước tải xuống : 2.27 MiB

  • Kích thước tập dữ liệu : 3.04 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 19,806
'validation' 5,674
  • trích dẫn :
@inproceedings{min-etal-2020-ambigqa,
    title = "{A}mbig{QA}: Answering Ambiguous Open-domain Questions",
    author = "Min, Sewon  and
      Michael, Julian  and
      Hajishirzi, Hannaneh  and
      Zettlemoyer, Luke",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.emnlp-main.466",
    doi = "10.18653/v1/2020.emnlp-main.466",
    pages = "5783--5797",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/arc_easy

  • Mô tả cấu hình : Bộ dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thử thách và Tập dễ dàng, trong đó tập đầu tiên chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán cùng xuất hiện từ. Bộ này bao gồm các câu hỏi "dễ dàng".

  • Kích thước tải xuống : 1.24 MiB

  • Kích thước tập dữ liệu : 1.42 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 2.376
'train' 2.251
'validation' 570
  • trích dẫn :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/arc_easy_dev

  • Mô tả cấu hình : Bộ dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thử thách và Tập dễ dàng, trong đó tập đầu tiên chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán cùng xuất hiện từ. Bộ này bao gồm các câu hỏi "dễ dàng".

  • Kích thước tải xuống : 1.24 MiB

  • Kích thước tập dữ liệu : 1.42 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 2.376
'train' 2.251
'validation' 570
  • trích dẫn :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/arc_easy_with_ir

  • Mô tả cấu hình : Bộ dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thử thách và Tập dễ dàng, trong đó tập đầu tiên chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán cùng xuất hiện từ. Bộ này bao gồm các câu hỏi "dễ dàng". Phiên bản này bao gồm các đoạn được lấy thông qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.

  • Kích thước tải xuống : 7.00 MiB

  • Kích thước tập dữ liệu : 7.17 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 2.376
'train' 2.251
'validation' 570
  • trích dẫn :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/arc_easy_with_ir_dev

  • Mô tả cấu hình : Bộ dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thử thách và Tập dễ dàng, trong đó tập đầu tiên chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán cùng xuất hiện từ. Bộ này bao gồm các câu hỏi "dễ dàng". Phiên bản này bao gồm các đoạn được lấy thông qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.

  • Kích thước tải xuống : 7.00 MiB

  • Kích thước tập dữ liệu : 7.17 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 2.376
'train' 2.251
'validation' 570
  • trích dẫn :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/arc_hard

  • Mô tả cấu hình : Bộ dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thử thách và Tập dễ dàng, trong đó tập đầu tiên chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán cùng xuất hiện từ. Bộ này bao gồm các câu hỏi "khó".

  • Kích thước tải xuống : 758.03 KiB

  • Kích thước tập dữ liệu : 848.28 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.172
'train' 1.119
'validation' 299
  • trích dẫn :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/arc_hard_dev

  • Mô tả cấu hình : Bộ dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thử thách và Tập dễ dàng, trong đó tập đầu tiên chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán cùng xuất hiện từ. Bộ này bao gồm các câu hỏi "khó".

  • Kích thước tải xuống : 758.03 KiB

  • Kích thước tập dữ liệu : 848.28 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.172
'train' 1.119
'validation' 299
  • trích dẫn :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/arc_hard_with_ir

  • Mô tả cấu hình : Bộ dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thử thách và Tập dễ dàng, trong đó tập đầu tiên chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán cùng xuất hiện từ. Bộ này bao gồm các câu hỏi "khó". Phiên bản này bao gồm các đoạn được lấy thông qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.

  • Kích thước tải xuống : 3.53 MiB

  • Kích thước tập dữ liệu : 3.62 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.172
'train' 1.119
'validation' 299
  • trích dẫn :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/arc_hard_with_ir_dev

  • Mô tả cấu hình : Bộ dữ liệu này bao gồm các câu hỏi khoa học trắc nghiệm, cấp lớp chính hãng, được tập hợp để khuyến khích nghiên cứu trả lời câu hỏi nâng cao. Tập dữ liệu được phân chia thành Tập thử thách và Tập dễ dàng, trong đó tập đầu tiên chỉ chứa các câu hỏi được trả lời sai bởi cả thuật toán dựa trên truy xuất và thuật toán cùng xuất hiện từ. Bộ này bao gồm các câu hỏi "khó". Phiên bản này bao gồm các đoạn được lấy thông qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.

  • Kích thước tải xuống : 3.53 MiB

  • Kích thước tập dữ liệu : 3.62 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.172
'train' 1.119
'validation' 299
  • trích dẫn :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/boolq

  • Mô tả cấu hình : BoolQ là tập dữ liệu trả lời câu hỏi cho câu hỏi có/không. Những câu hỏi này xảy ra một cách tự nhiên --- chúng được tạo ra trong các cài đặt không bị ràng buộc và không bị ràng buộc. Mỗi ví dụ là một bộ ba (câu hỏi, đoạn văn, câu trả lời), với tiêu đề của trang là ngữ cảnh bổ sung tùy chọn. Thiết lập phân loại cặp văn bản tương tự như các tác vụ suy luận ngôn ngữ tự nhiên hiện có.

  • Kích thước tải xuống : 7.77 MiB

  • Kích thước tập dữ liệu : 8.20 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 9,427
'validation' 3.270
  • trích dẫn :
@inproceedings{clark-etal-2019-boolq,
    title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
    author = "Clark, Christopher  and
      Lee, Kenton  and
      Chang, Ming-Wei  and
      Kwiatkowski, Tom  and
      Collins, Michael  and
      Toutanova, Kristina",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1300",
    doi = "10.18653/v1/N19-1300",
    pages = "2924--2936",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/boolq_np

  • Mô tả cấu hình : BoolQ là tập dữ liệu trả lời câu hỏi cho câu hỏi có/không. Những câu hỏi này xảy ra một cách tự nhiên --- chúng được tạo ra trong các cài đặt không bị ràng buộc và không bị ràng buộc. Mỗi ví dụ là một bộ ba (câu hỏi, đoạn văn, câu trả lời), với tiêu đề của trang là ngữ cảnh bổ sung tùy chọn. Thiết lập phân loại cặp văn bản tương tự như các tác vụ suy luận ngôn ngữ tự nhiên hiện có. Phiên bản này thêm nhiễu loạn tự nhiên vào phiên bản gốc.

  • Kích thước tải xuống : 10.80 MiB

  • Kích thước tập dữ liệu : 11.40 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 9,727
'validation' 7,596
  • trích dẫn :
@inproceedings{khashabi-etal-2020-bang,
    title = "More Bang for Your Buck: Natural Perturbation for Robust Question Answering",
    author = "Khashabi, Daniel  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.emnlp-main.12",
    doi = "10.18653/v1/2020.emnlp-main.12",
    pages = "163--170",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/commonsenseqa

  • Mô tả cấu hình : CommonsenseQA là bộ dữ liệu trả lời câu hỏi trắc nghiệm mới yêu cầu các loại kiến ​​thức thông thường khác nhau để dự đoán câu trả lời đúng. Nó bao gồm các câu hỏi với một câu trả lời đúng và bốn câu trả lời gây phân tâm.

  • Kích thước tải xuống : 1.79 MiB

  • Kích thước tập dữ liệu : 2.19 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.140
'train' 9,741
'validation' 1.221
  • trích dẫn :
@inproceedings{talmor-etal-2019-commonsenseqa,
    title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
    author = "Talmor, Alon  and
      Herzig, Jonathan  and
      Lourie, Nicholas  and
      Berant, Jonathan",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1421",
    doi = "10.18653/v1/N19-1421",
    pages = "4149--4158",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/commonsenseqa_test

  • Mô tả cấu hình : CommonsenseQA là bộ dữ liệu trả lời câu hỏi trắc nghiệm mới yêu cầu các loại kiến ​​thức thông thường khác nhau để dự đoán câu trả lời đúng. Nó bao gồm các câu hỏi với một câu trả lời đúng và bốn câu trả lời gây phân tâm.

  • Kích thước tải xuống : 1.79 MiB

  • Kích thước tập dữ liệu : 2.19 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.140
'train' 9,741
'validation' 1.221
  • trích dẫn :
@inproceedings{talmor-etal-2019-commonsenseqa,
    title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
    author = "Talmor, Alon  and
      Herzig, Jonathan  and
      Lourie, Nicholas  and
      Berant, Jonathan",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1421",
    doi = "10.18653/v1/N19-1421",
    pages = "4149--4158",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/contrast_sets_boolq

  • Mô tả cấu hình : BoolQ là tập dữ liệu trả lời câu hỏi cho câu hỏi có/không. Những câu hỏi này xảy ra một cách tự nhiên --- chúng được tạo ra trong các cài đặt không bị ràng buộc và không bị ràng buộc. Mỗi ví dụ là một bộ ba (câu hỏi, đoạn văn, câu trả lời), với tiêu đề của trang là ngữ cảnh bổ sung tùy chọn. Thiết lập phân loại cặp văn bản tương tự như các tác vụ suy luận ngôn ngữ tự nhiên hiện có. Phiên bản này sử dụng các bộ tương phản. Các bộ đánh giá này là các nhiễu loạn do chuyên gia tạo ra, khác với các mẫu phổ biến trong tập dữ liệu gốc.

  • Kích thước tải xuống : 438.51 KiB

  • Kích thước tập dữ liệu : 462.35 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 340
'validation' 340
  • trích dẫn :
@inproceedings{clark-etal-2019-boolq,
    title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
    author = "Clark, Christopher  and
      Lee, Kenton  and
      Chang, Ming-Wei  and
      Kwiatkowski, Tom  and
      Collins, Michael  and
      Toutanova, Kristina",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1300",
    doi = "10.18653/v1/N19-1300",
    pages = "2924--2936",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/contrast_sets_drop

  • Mô tả cấu hình : DROP là điểm chuẩn QA do đối thủ tạo ra, có nguồn lực cộng đồng, trong đó hệ thống phải giải quyết các tham chiếu trong một câu hỏi, có thể là cho nhiều vị trí đầu vào và thực hiện các thao tác riêng biệt trên chúng (chẳng hạn như cộng, đếm hoặc sắp xếp). Các hoạt động này đòi hỏi sự hiểu biết toàn diện hơn về nội dung của các đoạn văn so với những gì cần thiết cho các bộ dữ liệu trước đó. Phiên bản này sử dụng các bộ tương phản. Các bộ đánh giá này là các nhiễu loạn do chuyên gia tạo ra, khác với các mẫu phổ biến trong tập dữ liệu gốc.

  • Kích thước tải xuống : 2.20 MiB

  • Kích thước tập dữ liệu : 2.26 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 947
'validation' 947
  • trích dẫn :
@inproceedings{dua-etal-2019-drop,
    title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
    author = "Dua, Dheeru  and
      Wang, Yizhong  and
      Dasigi, Pradeep  and
      Stanovsky, Gabriel  and
      Singh, Sameer  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1246",
    doi = "10.18653/v1/N19-1246",
    pages = "2368--2378",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/contrast_sets_quoref

  • Mô tả cấu hình : Bộ dữ liệu này kiểm tra khả năng suy luận cốt lõi của các hệ thống đọc hiểu. Trong tiêu chuẩn lựa chọn khoảng này có chứa các câu hỏi về các đoạn từ Wikipedia, một hệ thống phải giải quyết các tham chiếu chính trước khi chọn (các) khoảng thích hợp trong các đoạn để trả lời câu hỏi. Phiên bản này sử dụng các bộ tương phản. Các bộ đánh giá này là các nhiễu loạn do chuyên gia tạo ra, khác với các mẫu phổ biến trong tập dữ liệu gốc.

  • Kích thước tải xuống : 2.60 MiB

  • Kích thước tập dữ liệu : 2.65 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 700
'validation' 700
  • trích dẫn :
@inproceedings{dasigi-etal-2019-quoref,
    title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
    author = "Dasigi, Pradeep  and
      Liu, Nelson F.  and
      Marasovi{'c}, Ana  and
      Smith, Noah A.  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1606",
    doi = "10.18653/v1/D19-1606",
    pages = "5925--5932",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/contrast_sets_ropes

  • Mô tả cấu hình : Tập dữ liệu này kiểm tra khả năng của hệ thống trong việc áp dụng kiến ​​thức từ một đoạn văn bản vào một tình huống mới. Một hệ thống được trình bày một đoạn văn nền chứa (các) mối quan hệ nhân quả hoặc định tính (ví dụ: "các loài thụ phấn ở động vật làm tăng hiệu quả thụ tinh ở hoa"), một tình huống mới lạ sử dụng nền tảng này và các câu hỏi yêu cầu suy luận về tác động của các mối quan hệ trong đoạn nền trong ngữ cảnh của tình huống. Phiên bản này sử dụng các bộ tương phản. Các bộ đánh giá này là các nhiễu loạn do chuyên gia tạo ra, khác với các mẫu phổ biến trong tập dữ liệu gốc.

  • Kích thước tải xuống : 1.97 MiB

  • Kích thước tập dữ liệu : 2.04 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 974
'validation' 974
  • trích dẫn :
@inproceedings{lin-etal-2019-reasoning,
    title = "Reasoning Over Paragraph Effects in Situations",
    author = "Lin, Kevin  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5808",
    doi = "10.18653/v1/D19-5808",
    pages = "58--62",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

thống nhất_qa/thả

  • Mô tả cấu hình : DROP là điểm chuẩn QA do đối thủ tạo ra, có nguồn lực cộng đồng, trong đó hệ thống phải giải quyết các tham chiếu trong một câu hỏi, có thể là cho nhiều vị trí đầu vào và thực hiện các thao tác riêng biệt trên chúng (chẳng hạn như cộng, đếm hoặc sắp xếp). Các hoạt động này đòi hỏi sự hiểu biết toàn diện hơn về nội dung của các đoạn văn so với những gì cần thiết cho các bộ dữ liệu trước đó.

  • Kích thước tải xuống : 105.18 MiB

  • Kích thước tập dữ liệu : 108.16 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 77,399
'validation' 9,536
  • trích dẫn :
@inproceedings{dua-etal-2019-drop,
    title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
    author = "Dua, Dheeru  and
      Wang, Yizhong  and
      Dasigi, Pradeep  and
      Stanovsky, Gabriel  and
      Singh, Sameer  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1246",
    doi = "10.18653/v1/N19-1246",
    pages = "2368--2378",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/mctest

  • Mô tả cấu hình : MCTest yêu cầu máy trả lời các câu hỏi đọc hiểu trắc nghiệm về các câu chuyện hư cấu, trực tiếp giải quyết mục tiêu cấp cao về khả năng hiểu của máy trong miền mở. Đọc hiểu có thể kiểm tra các khả năng nâng cao như lý luận nhân quả và hiểu thế giới, tuy nhiên, bằng cách trắc nghiệm, vẫn cung cấp một thước đo rõ ràng. Do là hư cấu, câu trả lời thường chỉ có thể được tìm thấy trong chính câu chuyện. Các câu chuyện và câu hỏi cũng được giới hạn cẩn thận ở mức trẻ nhỏ có thể hiểu, làm giảm kiến ​​thức thế giới cần thiết cho nhiệm vụ.

  • Kích thước tải xuống : 2.14 MiB

  • Kích thước tập dữ liệu : 2.20 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 1.480
'validation' 320
  • trích dẫn :
@inproceedings{richardson-etal-2013-mctest,
    title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
    author = "Richardson, Matthew  and
      Burges, Christopher J.C.  and
      Renshaw, Erin",
    booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
    month = oct,
    year = "2013",
    address = "Seattle, Washington, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D13-1020",
    pages = "193--203",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/mctest_corrected_the_separator

  • Mô tả cấu hình : MCTest yêu cầu máy trả lời các câu hỏi đọc hiểu trắc nghiệm về các câu chuyện hư cấu, trực tiếp giải quyết mục tiêu cấp cao về khả năng hiểu của máy trong miền mở. Đọc hiểu có thể kiểm tra các khả năng nâng cao như lý luận nhân quả và hiểu thế giới, tuy nhiên, bằng cách trắc nghiệm, vẫn cung cấp một thước đo rõ ràng. Do là hư cấu, câu trả lời thường chỉ có thể được tìm thấy trong chính câu chuyện. Các câu chuyện và câu hỏi cũng được giới hạn cẩn thận ở mức trẻ nhỏ có thể hiểu, làm giảm kiến ​​thức thế giới cần thiết cho nhiệm vụ.

  • Kích thước tải xuống : 2.15 MiB

  • Kích thước tập dữ liệu : 2.21 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 1.480
'validation' 320
  • trích dẫn :
@inproceedings{richardson-etal-2013-mctest,
    title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
    author = "Richardson, Matthew  and
      Burges, Christopher J.C.  and
      Renshaw, Erin",
    booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
    month = oct,
    year = "2013",
    address = "Seattle, Washington, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D13-1020",
    pages = "193--203",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/multirc

  • Mô tả cấu hình : MultiRC là một thử thách đọc hiểu trong đó các câu hỏi chỉ có thể được trả lời bằng cách tính đến thông tin từ nhiều câu. Các câu hỏi và câu trả lời cho thử thách này đã được trưng cầu và xác minh thông qua thử nghiệm cung cấp dịch vụ cộng đồng gồm 4 bước. Bộ dữ liệu chứa các câu hỏi cho các đoạn văn trên 7 lĩnh vực khác nhau (khoa học tiểu học, tin tức, hướng dẫn du lịch, truyện viễn tưởng, v.v.) mang lại sự đa dạng về ngôn ngữ cho văn bản và từ ngữ của câu hỏi.

  • Kích thước tải xuống : 897.09 KiB

  • Kích thước tập dữ liệu : 918.42 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 312
'validation' 312
  • trích dẫn :
@inproceedings{khashabi-etal-2018-looking,
    title = "Looking Beyond the Surface: A Challenge Set for Reading Comprehension over Multiple Sentences",
    author = "Khashabi, Daniel  and
      Chaturvedi, Snigdha  and
      Roth, Michael  and
      Upadhyay, Shyam  and
      Roth, Dan",
    booktitle = "Proceedings of the 2018 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)",
    month = jun,
    year = "2018",
    address = "New Orleans, Louisiana",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N18-1023",
    doi = "10.18653/v1/N18-1023",
    pages = "252--262",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/narrativeqa

  • Mô tả cấu hình : NarrativeQA là bộ dữ liệu bằng tiếng Anh gồm các câu chuyện và câu hỏi tương ứng được thiết kế để kiểm tra khả năng đọc hiểu, đặc biệt là trên các tài liệu dài.

  • Kích thước tải xuống : 308.28 MiB

  • Kích thước tập dữ liệu : 311.22 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'test' 21,114
'train' 65,494
'validation' 6,922
  • trích dẫn :
@article{kocisky-etal-2018-narrativeqa,
    title = "The {N}arrative{QA} Reading Comprehension Challenge",
    author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} }  and
      Schwarz, Jonathan  and
      Blunsom, Phil  and
      Dyer, Chris  and
      Hermann, Karl Moritz  and
      Melis, G{'a}bor  and
      Grefenstette, Edward",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "6",
    year = "2018",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q18-1023",
    doi = "10.1162/tacl_a_00023",
    pages = "317--328",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/narrativeqa_dev

  • Mô tả cấu hình : NarrativeQA là bộ dữ liệu bằng tiếng Anh gồm các câu chuyện và câu hỏi tương ứng được thiết kế để kiểm tra khả năng đọc hiểu, đặc biệt là trên các tài liệu dài.

  • Kích thước tải xuống : 308.28 MiB

  • Kích thước tập dữ liệu : 311.22 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'test' 21,114
'train' 65,494
'validation' 6,922
  • trích dẫn :
@article{kocisky-etal-2018-narrativeqa,
    title = "The {N}arrative{QA} Reading Comprehension Challenge",
    author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} }  and
      Schwarz, Jonathan  and
      Blunsom, Phil  and
      Dyer, Chris  and
      Hermann, Karl Moritz  and
      Melis, G{'a}bor  and
      Grefenstette, Edward",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "6",
    year = "2018",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q18-1023",
    doi = "10.1162/tacl_a_00023",
    pages = "317--328",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/natural_questions

  • Mô tả cấu hình : Kho văn bản NQ chứa các câu hỏi từ người dùng thực và nó yêu cầu các hệ thống Đảm bảo chất lượng đọc và hiểu toàn bộ bài viết Wikipedia có thể chứa hoặc không chứa câu trả lời cho câu hỏi. Việc bao gồm các câu hỏi của người dùng thực và yêu cầu rằng các giải pháp phải đọc toàn bộ trang để tìm câu trả lời, khiến NQ trở thành một nhiệm vụ thực tế và thách thức hơn so với các bộ dữ liệu QA trước đó.

  • Kích thước tải xuống : 6.95 MiB

  • Kích thước tập dữ liệu : 9.88 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 96,075
'validation' 2.295
  • trích dẫn :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/natural_questions_direct_ans

  • Mô tả cấu hình : Kho văn bản NQ chứa các câu hỏi từ người dùng thực và nó yêu cầu các hệ thống Đảm bảo chất lượng đọc và hiểu toàn bộ bài viết Wikipedia có thể chứa hoặc không chứa câu trả lời cho câu hỏi. Việc bao gồm các câu hỏi của người dùng thực và yêu cầu rằng các giải pháp phải đọc toàn bộ trang để tìm câu trả lời, khiến NQ trở thành một nhiệm vụ thực tế và thách thức hơn so với các bộ dữ liệu QA trước đó. Phiên bản này bao gồm các câu hỏi trả lời trực tiếp.

  • Kích thước tải xuống : 6.82 MiB

  • Kích thước tập dữ liệu : 10.19 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 6,468
'train' 96,676
'validation' 10,693
  • trích dẫn :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/natural_questions_direct_ans_test

  • Mô tả cấu hình : Kho văn bản NQ chứa các câu hỏi từ người dùng thực và nó yêu cầu các hệ thống Đảm bảo chất lượng đọc và hiểu toàn bộ bài viết Wikipedia có thể chứa hoặc không chứa câu trả lời cho câu hỏi. Việc bao gồm các câu hỏi của người dùng thực và yêu cầu rằng các giải pháp phải đọc toàn bộ trang để tìm câu trả lời, khiến NQ trở thành một nhiệm vụ thực tế và thách thức hơn so với các bộ dữ liệu QA trước đó. Phiên bản này bao gồm các câu hỏi trả lời trực tiếp.

  • Kích thước tải xuống : 6.82 MiB

  • Kích thước tập dữ liệu : 10.19 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 6,468
'train' 96,676
'validation' 10,693
  • trích dẫn :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/natural_questions_with_dpr_para

  • Mô tả cấu hình : Kho văn bản NQ chứa các câu hỏi từ người dùng thực và nó yêu cầu các hệ thống Đảm bảo chất lượng đọc và hiểu toàn bộ bài viết Wikipedia có thể chứa hoặc không chứa câu trả lời cho câu hỏi. Việc bao gồm các câu hỏi của người dùng thực và yêu cầu rằng các giải pháp phải đọc toàn bộ trang để tìm câu trả lời, khiến NQ trở thành một nhiệm vụ thực tế và thách thức hơn so với các bộ dữ liệu QA trước đó. Phiên bản này bao gồm các đoạn văn bổ sung (thu được bằng cách sử dụng công cụ truy xuất DPR) để bổ sung cho mỗi câu hỏi.

  • Kích thước tải xuống : 319.22 MiB

  • Kích thước tập dữ liệu : 322.91 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 96,676
'validation' 10,693
  • trích dẫn :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/natural_questions_with_dpr_para_test

  • Mô tả cấu hình : Kho văn bản NQ chứa các câu hỏi từ người dùng thực và nó yêu cầu các hệ thống Đảm bảo chất lượng đọc và hiểu toàn bộ bài viết Wikipedia có thể chứa hoặc không chứa câu trả lời cho câu hỏi. Việc bao gồm các câu hỏi của người dùng thực và yêu cầu rằng các giải pháp phải đọc toàn bộ trang để tìm câu trả lời, khiến NQ trở thành một nhiệm vụ thực tế và thách thức hơn so với các bộ dữ liệu QA trước đó. Phiên bản này bao gồm các đoạn văn bổ sung (thu được bằng cách sử dụng công cụ truy xuất DPR) để bổ sung cho mỗi câu hỏi.

  • Kích thước tải xuống : 306.94 MiB

  • Kích thước tập dữ liệu : 310.48 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'test' 6,468
'train' 96,676
  • trích dẫn :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/newsqa

  • Mô tả cấu hình : NewsQA là một bộ dữ liệu máy hiểu đầy thách thức về các cặp câu hỏi-câu trả lời do con người tạo ra. Crowdworkers cung cấp câu hỏi và câu trả lời dựa trên một tập hợp các bài báo từ CNN, với câu trả lời bao gồm các đoạn văn bản từ các bài báo tương ứng.

  • Kích thước tải xuống : 283.33 MiB

  • Kích thước tập dữ liệu : 285.94 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 75,882
'validation' 4.309
  • trích dẫn :
@inproceedings{trischler-etal-2017-newsqa,
    title = "{N}ews{QA}: A Machine Comprehension Dataset",
    author = "Trischler, Adam  and
      Wang, Tong  and
      Yuan, Xingdi  and
      Harris, Justin  and
      Sordoni, Alessandro  and
      Bachman, Philip  and
      Suleman, Kaheer",
    booktitle = "Proceedings of the 2nd Workshop on Representation Learning for {NLP}",
    month = aug,
    year = "2017",
    address = "Vancouver, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/W17-2623",
    doi = "10.18653/v1/W17-2623",
    pages = "191--200",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/openbookqa

  • Mô tả cấu hình : OpenBookQA nhằm mục đích thúc đẩy nghiên cứu về trả lời câu hỏi nâng cao, thăm dò sự hiểu biết sâu sắc hơn về cả chủ đề (với các sự kiện nổi bật được tóm tắt dưới dạng một cuốn sách mở, cũng được cung cấp cùng với bộ dữ liệu) và ngôn ngữ mà nó được thể hiện. Đặc biệt, nó chứa các câu hỏi yêu cầu lập luận nhiều bước, sử dụng thêm kiến ​​thức thông thường và thông thường, và hiểu văn bản phong phú. OpenBookQA là một loại bộ dữ liệu trả lời câu hỏi mới được mô hình hóa sau các bài kiểm tra sách mở để đánh giá sự hiểu biết của con người về một chủ đề.

  • Kích thước tải xuống : 942.34 KiB

  • Kích thước tập dữ liệu : 1.11 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 500
'train' 4,957
'validation' 500
  • trích dẫn :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/openbookqa_dev

  • Mô tả cấu hình : OpenBookQA nhằm mục đích thúc đẩy nghiên cứu về trả lời câu hỏi nâng cao, thăm dò sự hiểu biết sâu sắc hơn về cả chủ đề (với các sự kiện nổi bật được tóm tắt dưới dạng một cuốn sách mở, cũng được cung cấp cùng với bộ dữ liệu) và ngôn ngữ mà nó được thể hiện. Đặc biệt, nó chứa các câu hỏi yêu cầu lập luận nhiều bước, sử dụng thêm kiến ​​thức thông thường và thông thường, và hiểu văn bản phong phú. OpenBookQA là một loại bộ dữ liệu trả lời câu hỏi mới được mô hình hóa sau các bài kiểm tra sách mở để đánh giá sự hiểu biết của con người về một chủ đề.

  • Kích thước tải xuống : 942.34 KiB

  • Kích thước tập dữ liệu : 1.11 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 500
'train' 4,957
'validation' 500
  • trích dẫn :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/openbookqa_with_ir

  • Mô tả cấu hình : OpenBookQA nhằm mục đích thúc đẩy nghiên cứu về trả lời câu hỏi nâng cao, thăm dò sự hiểu biết sâu sắc hơn về cả chủ đề (với các sự kiện nổi bật được tóm tắt dưới dạng một cuốn sách mở, cũng được cung cấp cùng với bộ dữ liệu) và ngôn ngữ mà nó được thể hiện. Đặc biệt, nó chứa các câu hỏi yêu cầu lập luận nhiều bước, sử dụng thêm kiến ​​thức thông thường và thông thường, và hiểu văn bản phong phú. OpenBookQA là một loại bộ dữ liệu trả lời câu hỏi mới được mô hình hóa sau các bài kiểm tra sách mở để đánh giá sự hiểu biết của con người về một chủ đề. Phiên bản này bao gồm các đoạn được lấy thông qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.

  • Kích thước tải xuống : 6.08 MiB

  • Kích thước tập dữ liệu : 6.28 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 500
'train' 4,957
'validation' 500
  • trích dẫn :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/openbookqa_with_ir_dev

  • Mô tả cấu hình : OpenBookQA nhằm mục đích thúc đẩy nghiên cứu về trả lời câu hỏi nâng cao, thăm dò sự hiểu biết sâu sắc hơn về cả chủ đề (với các sự kiện nổi bật được tóm tắt dưới dạng một cuốn sách mở, cũng được cung cấp cùng với bộ dữ liệu) và ngôn ngữ mà nó được thể hiện. Đặc biệt, nó chứa các câu hỏi yêu cầu lập luận nhiều bước, sử dụng thêm kiến ​​thức thông thường và thông thường, và hiểu văn bản phong phú. OpenBookQA là một loại bộ dữ liệu trả lời câu hỏi mới được mô hình hóa sau các bài kiểm tra sách mở để đánh giá sự hiểu biết của con người về một chủ đề. Phiên bản này bao gồm các đoạn được lấy thông qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.

  • Kích thước tải xuống : 6.08 MiB

  • Kích thước tập dữ liệu : 6.28 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 500
'train' 4,957
'validation' 500
  • trích dẫn :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/physical_iqa

  • Mô tả cấu hình : Đây là tập dữ liệu cho quá trình đo điểm chuẩn theo cách hiểu thông thường về vật lý. Nhiệm vụ cơ bản là trả lời câu hỏi trắc nghiệm: đưa ra một câu hỏi q và hai giải pháp khả thi s1, s2, người mẫu hoặc con người phải chọn giải pháp phù hợp nhất, trong đó có đúng một giải pháp đúng. Bộ dữ liệu tập trung vào các tình huống hàng ngày với ưu tiên cho các giải pháp không điển hình. Bộ dữ liệu được lấy cảm hứng từ http://www.guideables.com, cung cấp cho người dùng các hướng dẫn về cách xây dựng, chế tạo, nướng hoặc thao tác với các đối tượng bằng các vật liệu hàng ngày. Người chú thích được yêu cầu cung cấp các nhiễu loạn ngữ nghĩa hoặc các cách tiếp cận thay thế tương tự về mặt cú pháp và chủ đề để đảm bảo kiến ​​​​thức vật lý được nhắm mục tiêu. Bộ dữ liệu được làm sạch thêm các thành phần tạo tác cơ bản bằng thuật toán AFLite.

  • Kích thước tải xuống : 6.01 MiB

  • Kích thước tập dữ liệu : 6.59 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 16,113
'validation' 1.838
  • trích dẫn :
@inproceedings{bisk2020piqa,
    title={Piqa: Reasoning about physical commonsense in natural language},
    author={Bisk, Yonatan and Zellers, Rowan and Gao, Jianfeng and Choi, Yejin and others},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={7432--7439},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/qasc

  • Mô tả cấu hình : QASC là một bộ dữ liệu trả lời câu hỏi tập trung vào thành phần câu. Nó bao gồm các câu hỏi trắc nghiệm 8 chiều về khoa học ở trường phổ thông và đi kèm với kho ngữ liệu gồm 17 triệu câu.

  • Kích thước tải xuống : 1.75 MiB

  • Kích thước tập dữ liệu : 2.09 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 920
'train' 8.134
'validation' 926
  • trích dẫn :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/qasc_test

  • Mô tả cấu hình : QASC là một bộ dữ liệu trả lời câu hỏi tập trung vào thành phần câu. Nó bao gồm các câu hỏi trắc nghiệm 8 chiều về khoa học ở trường phổ thông và đi kèm với kho ngữ liệu gồm 17 triệu câu.

  • Kích thước tải xuống : 1.75 MiB

  • Kích thước tập dữ liệu : 2.09 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 920
'train' 8.134
'validation' 926
  • trích dẫn :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/qasc_with_ir

  • Mô tả cấu hình : QASC là một bộ dữ liệu trả lời câu hỏi tập trung vào thành phần câu. Nó bao gồm các câu hỏi trắc nghiệm 8 chiều về khoa học ở trường phổ thông và đi kèm với kho ngữ liệu gồm 17 triệu câu. Phiên bản này bao gồm các đoạn được lấy thông qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.

  • Kích thước tải xuống : 16.95 MiB

  • Kích thước tập dữ liệu : 17.30 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 920
'train' 8.134
'validation' 926
  • trích dẫn :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/qasc_with_ir_test

  • Mô tả cấu hình : QASC là một bộ dữ liệu trả lời câu hỏi tập trung vào thành phần câu. Nó bao gồm các câu hỏi trắc nghiệm 8 chiều về khoa học ở trường phổ thông và đi kèm với kho ngữ liệu gồm 17 triệu câu. Phiên bản này bao gồm các đoạn được lấy thông qua hệ thống truy xuất thông tin làm bằng chứng bổ sung.

  • Kích thước tải xuống : 16.95 MiB

  • Kích thước tập dữ liệu : 17.30 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 920
'train' 8.134
'validation' 926
  • trích dẫn :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/quoref

  • Mô tả cấu hình : Bộ dữ liệu này kiểm tra khả năng suy luận cốt lõi của các hệ thống đọc hiểu. Trong tiêu chuẩn lựa chọn khoảng này có chứa các câu hỏi về các đoạn từ Wikipedia, một hệ thống phải giải quyết các tham chiếu chính trước khi chọn (các) khoảng thích hợp trong các đoạn để trả lời câu hỏi.

  • Kích thước tải xuống : 51.43 MiB

  • Kích thước tập dữ liệu : 52.29 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 22,265
'validation' 2.768
  • trích dẫn :
@inproceedings{dasigi-etal-2019-quoref,
    title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
    author = "Dasigi, Pradeep  and
      Liu, Nelson F.  and
      Marasovi{'c}, Ana  and
      Smith, Noah A.  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1606",
    doi = "10.18653/v1/D19-1606",
    pages = "5925--5932",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/race_string

  • Mô tả cấu hình : Race là một bộ dữ liệu đọc hiểu quy mô lớn. Bộ dữ liệu được thu thập từ các kỳ thi tiếng Anh ở Trung Quốc, được thiết kế cho học sinh trung học cơ sở và trung học phổ thông. Tập dữ liệu có thể được dùng làm tập huấn luyện và kiểm tra để hiểu máy.

  • Kích thước tải xuống : 167.97 MiB

  • Kích thước tập dữ liệu : 171.23 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi shuffle_files=False (đào tạo)

  • Chia tách :

Tách ra ví dụ
'test' 4,934
'train' 87,863
'validation' 4,887
  • trích dẫn :
@inproceedings{lai-etal-2017-race,
    title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
    author = "Lai, Guokun  and
      Xie, Qizhe  and
      Liu, Hanxiao  and
      Yang, Yiming  and
      Hovy, Eduard",
    booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
    month = sep,
    year = "2017",
    address = "Copenhagen, Denmark",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D17-1082",
    doi = "10.18653/v1/D17-1082",
    pages = "785--794",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/race_string_dev

  • Mô tả cấu hình : Race là một bộ dữ liệu đọc hiểu quy mô lớn. Bộ dữ liệu được thu thập từ các kỳ thi tiếng Anh ở Trung Quốc, được thiết kế cho học sinh trung học cơ sở và trung học phổ thông. Tập dữ liệu có thể được dùng làm tập huấn luyện và kiểm tra để hiểu máy.

  • Kích thước tải xuống : 167.97 MiB

  • Kích thước tập dữ liệu : 171.23 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi shuffle_files=False (đào tạo)

  • Chia tách :

Tách ra ví dụ
'test' 4,934
'train' 87,863
'validation' 4,887
  • trích dẫn :
@inproceedings{lai-etal-2017-race,
    title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
    author = "Lai, Guokun  and
      Xie, Qizhe  and
      Liu, Hanxiao  and
      Yang, Yiming  and
      Hovy, Eduard",
    booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
    month = sep,
    year = "2017",
    address = "Copenhagen, Denmark",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D17-1082",
    doi = "10.18653/v1/D17-1082",
    pages = "785--794",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/ropes

  • Mô tả cấu hình : Tập dữ liệu này kiểm tra khả năng của hệ thống trong việc áp dụng kiến ​​thức từ một đoạn văn bản vào một tình huống mới. Một hệ thống được trình bày một đoạn văn nền chứa (các) mối quan hệ nhân quả hoặc định tính (ví dụ: "các loài thụ phấn ở động vật làm tăng hiệu quả thụ tinh ở hoa"), một tình huống mới lạ sử dụng nền tảng này và các câu hỏi yêu cầu suy luận về tác động của các mối quan hệ trong đoạn nền trong ngữ cảnh của tình huống.

  • Kích thước tải xuống : 12.91 MiB

  • Kích thước tập dữ liệu : 13.35 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 10,924
'validation' 1.688
  • trích dẫn :
@inproceedings{lin-etal-2019-reasoning,
    title = "Reasoning Over Paragraph Effects in Situations",
    author = "Lin, Kevin  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5808",
    doi = "10.18653/v1/D19-5808",
    pages = "58--62",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

thống nhất_qa/xã hội_iqa

  • Mô tả cấu hình : Đây là điểm chuẩn quy mô lớn cho lý luận hợp lý về các tình huống xã hội. IQa xã hội chứa các câu hỏi trắc nghiệm để thăm dò trí thông minh cảm xúc và xã hội trong nhiều tình huống hàng ngày. Thông qua dịch vụ cộng đồng, các câu hỏi hợp lý cùng với câu trả lời đúng và sai về tương tác xã hội được thu thập, sử dụng một khuôn khổ mới giúp giảm thiểu các tạo tác văn phong trong các câu trả lời sai bằng cách yêu cầu nhân viên cung cấp câu trả lời đúng cho một câu hỏi khác nhưng có liên quan.

  • Kích thước tải xuống : 7.08 MiB

  • Kích thước tập dữ liệu : 8.22 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 33,410
'validation' 1.954
  • trích dẫn :
@inproceedings{sap-etal-2019-social,
    title = "Social {IQ}a: Commonsense Reasoning about Social Interactions",
    author = "Sap, Maarten  and
      Rashkin, Hannah  and
      Chen, Derek  and
      Le Bras, Ronan  and
      Choi, Yejin",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1454",
    doi = "10.18653/v1/D19-1454",
    pages = "4463--4473",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/squad1_1

  • Mô tả cấu hình : Đây là tập dữ liệu đọc hiểu bao gồm các câu hỏi do những người làm việc cộng đồng đặt ra trên một tập hợp các bài viết trên Wikipedia, trong đó câu trả lời cho mỗi câu hỏi là một đoạn văn bản từ đoạn đọc tương ứng.

  • Kích thước tải xuống : 80.62 MiB

  • Kích thước tập dữ liệu : 83.99 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 87,514
'validation' 10.570
  • trích dẫn :
@inproceedings{rajpurkar-etal-2016-squad,
    title = "{SQ}u{AD}: 100,000+ Questions for Machine Comprehension of Text",
    author = "Rajpurkar, Pranav  and
      Zhang, Jian  and
      Lopyrev, Konstantin  and
      Liang, Percy",
    booktitle = "Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing",
    month = nov,
    year = "2016",
    address = "Austin, Texas",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D16-1264",
    doi = "10.18653/v1/D16-1264",
    pages = "2383--2392",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/squad2

  • Mô tả cấu hình : Bộ dữ liệu này kết hợp bộ dữ liệu gốc Bộ dữ liệu trả lời câu hỏi Stanford (SQuAD) với các câu hỏi không thể trả lời được viết bởi những người làm việc trong cộng đồng để trông giống với những câu hỏi có thể trả lời được.

  • Kích thước tải xuống : 116.56 MiB

  • Kích thước tập dữ liệu : 121.43 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 130,149
'validation' 11,873
  • trích dẫn :
@inproceedings{rajpurkar-etal-2018-know,
    title = "Know What You Don{'}t Know: Unanswerable Questions for {SQ}u{AD}",
    author = "Rajpurkar, Pranav  and
      Jia, Robin  and
      Liang, Percy",
    booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)",
    month = jul,
    year = "2018",
    address = "Melbourne, Australia",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/P18-2124",
    doi = "10.18653/v1/P18-2124",
    pages = "784--789",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/winogrande_l

  • Mô tả cấu hình : Tập dữ liệu này được lấy cảm hứng từ thiết kế Thử thách lược đồ Winograd ban đầu, nhưng được điều chỉnh để cải thiện cả quy mô và độ cứng của tập dữ liệu. Các bước chính của quá trình xây dựng tập dữ liệu bao gồm (1) quy trình cung cấp dịch vụ cộng đồng được thiết kế cẩn thận, tiếp theo là (2) giảm sai lệch có hệ thống bằng cách sử dụng thuật toán AfLite mới giúp khái quát hóa các liên kết từ mà con người có thể phát hiện thành các liên kết nhúng mà máy có thể phát hiện được. Bộ đào tạo với các kích cỡ khác nhau được cung cấp. Bộ này tương ứng với kích thước l .

  • Kích thước tải xuống : 1.49 MiB

  • Kích thước tập dữ liệu : 1.83 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 10,234
'validation' 1.267
  • trích dẫn :
@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/winogrande_m

  • Mô tả cấu hình : Tập dữ liệu này được lấy cảm hứng từ thiết kế Thử thách lược đồ Winograd ban đầu, nhưng được điều chỉnh để cải thiện cả quy mô và độ cứng của tập dữ liệu. Các bước chính của quá trình xây dựng tập dữ liệu bao gồm (1) quy trình cung cấp dịch vụ cộng đồng được thiết kế cẩn thận, tiếp theo là (2) giảm sai lệch có hệ thống bằng cách sử dụng thuật toán AfLite mới giúp khái quát hóa các liên kết từ mà con người có thể phát hiện thành các liên kết nhúng mà máy có thể phát hiện được. Bộ đào tạo với các kích cỡ khác nhau được cung cấp. Bộ này tương ứng với kích thước m .

  • Kích thước tải xuống : 507.46 KiB

  • Kích thước tập dữ liệu : 623.15 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 2.558
'validation' 1.267
  • trích dẫn :
@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unity_qa/winogrande_s

  • Mô tả cấu hình : Tập dữ liệu này được lấy cảm hứng từ thiết kế Thử thách lược đồ Winograd ban đầu, nhưng được điều chỉnh để cải thiện cả quy mô và độ cứng của tập dữ liệu. Các bước chính của quá trình xây dựng tập dữ liệu bao gồm (1) quy trình cung cấp dịch vụ cộng đồng được thiết kế cẩn thận, tiếp theo là (2) giảm sai lệch có hệ thống bằng cách sử dụng thuật toán AfLite mới giúp khái quát hóa các liên kết từ mà con người có thể phát hiện thành các liên kết nhúng mà máy có thể phát hiện được. Bộ đào tạo với các kích cỡ khác nhau được cung cấp. Bộ này tương ứng với kích thước s .

  • Kích thước tải xuống : 479.24 KiB

  • Kích thước tập dữ liệu : 590.47 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 1.767
'train' 640
'validation' 1.267
  • trích dẫn :
@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."