gov_report

  • Mô tả :

Bộ dữ liệu báo cáo của chính phủ bao gồm các báo cáo được viết bởi các cơ quan nghiên cứu của chính phủ bao gồm Dịch vụ Nghiên cứu của Quốc hội và Văn phòng Trách nhiệm của Chính phủ Hoa Kỳ.

@inproceedings{
anonymous2022efficiently,
title={Efficiently Modeling Long Sequences with Structured State Spaces},
author={Anonymous},
booktitle={Submitted to The Tenth International Conference on Learning Representations },
year={2022},
url={https://openreview.net/forum?id=uYLFoz1vlAC},
note={under review}
}

gov_report/crs_whitespace (cấu hình mặc định)

  • Mô tả cấu hình : Báo cáo CRS với bản tóm tắt. Các cấu trúc được làm phẳng và nối với nhau bằng khoảng trắng. Đây là định dạng được sử dụng bởi giấy gốc

  • Kích thước tập dữ liệu : 349.76 MiB

  • Chia tách :

Tách ra ví dụ
'test' 362
'train' 6,514
'validation' 362
  • Cấu trúc tính năng :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'reports': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
Tôi Chữ sợi dây
ngày phát hành Chữ sợi dây
báo cáo Chữ sợi dây
bản tóm tắt Chữ sợi dây
Tiêu đề Chữ sợi dây

gov_report/gao_whitespace

  • Mô tả cấu hình : Báo cáo GAO với phần nổi bật Các cấu trúc được làm phẳng và nối với nhau bằng khoảng trắng. Đây là định dạng được sử dụng bởi giấy gốc

  • Kích thước tập dữ liệu : 690.24 MiB

  • Chia tách :

Tách ra ví dụ
'test' 611
'train' 11.005
'validation' 612
  • Cấu trúc tính năng :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=string),
    'highlight': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'published_date': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'report': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
Thực tế nhanh Chữ sợi dây
Điểm nổi bật Chữ sợi dây
Tôi Chữ sợi dây
Ngày xuất bản Chữ sợi dây
ngày phát hành Chữ sợi dây
báo cáo Chữ sợi dây
Tiêu đề Chữ sợi dây
url Chữ sợi dây

gov_report/crs_html

  • Mô tả cấu hình : Báo cáo CRS với bản tóm tắt. Các cấu trúc được làm phẳng và nối bằng dòng mới trong khi thêm các thẻ html. Thẻ chỉ được thêm cho secition_title ở định dạng như <h2>xxx<h2> .

  • Kích thước tập dữ liệu : 351.25 MiB

  • Chia tách :

Tách ra ví dụ
'test' 362
'train' 6,514
'validation' 362
  • Cấu trúc tính năng :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'reports': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
Tôi Chữ sợi dây
ngày phát hành Chữ sợi dây
báo cáo Chữ sợi dây
bản tóm tắt Chữ sợi dây
Tiêu đề Chữ sợi dây

gov_report/gao_html

  • Mô tả cấu hình : Báo cáo GAO với cấu trúc nổi bật được làm phẳng và nối bằng dòng mới trong khi thêm thẻ html. Thẻ chỉ được thêm cho secition_title ở định dạng như <h2>xxx<h2> .

  • Kích thước tập dữ liệu : 692.72 MiB

  • Chia tách :

Tách ra ví dụ
'test' 611
'train' 11.005
'validation' 612
  • Cấu trúc tính năng :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=string),
    'highlight': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'published_date': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'report': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
Thực tế nhanh Chữ sợi dây
Điểm nổi bật Chữ sợi dây
Tôi Chữ sợi dây
Ngày xuất bản Chữ sợi dây
ngày phát hành Chữ sợi dây
báo cáo Chữ sợi dây
Tiêu đề Chữ sợi dây
url Chữ sợi dây

gov_report/crs_json

  • Mô tả cấu hình : Báo cáo CRS với bản tóm tắt. Các cấu trúc được biểu diễn dưới dạng json thô.

  • Kích thước tập dữ liệu : 361.92 MiB

  • Chia tách :

Tách ra ví dụ
'test' 362
'train' 6,514
'validation' 362
  • Cấu trúc tính năng :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'reports': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
Tôi Chữ sợi dây
ngày phát hành Chữ sợi dây
báo cáo Chữ sợi dây
bản tóm tắt Chữ sợi dây
Tiêu đề Chữ sợi dây

gov_report/gao_json

  • Mô tả cấu hình : Báo cáo GAO với cấu trúc nổi bật được biểu thị dưới dạng json thô.

  • Kích thước tập dữ liệu : 712.82 MiB

  • Chia tách :

Tách ra ví dụ
'test' 611
'train' 11.005
'validation' 612
  • Cấu trúc tính năng :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=string),
    'highlight': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'published_date': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'report': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
Thực tế nhanh Chữ sợi dây
Điểm nổi bật Chữ sợi dây
Tôi Chữ sợi dây
Ngày xuất bản Chữ sợi dây
ngày phát hành Chữ sợi dây
báo cáo Chữ sợi dây
Tiêu đề Chữ sợi dây
url Chữ sợi dây