gov_report

  • 설명 :

정부 보고서 데이터 세트는 Congressional Research Service 및 US Government Accountability Office를 포함한 정부 연구 기관에서 작성한 보고서로 구성됩니다.

@inproceedings{
anonymous2022efficiently,
title={Efficiently Modeling Long Sequences with Structured State Spaces},
author={Anonymous},
booktitle={Submitted to The Tenth International Conference on Learning Representations },
year={2022},
url={https://openreview.net/forum?id=uYLFoz1vlAC},
note={under review}
}

gov_report/crs_whitespace(기본 구성)

  • 구성 설명 : 요약이 포함된 CRS 보고서입니다. 구조가 평평해지고 공백으로 결합됩니다. 원본 용지에서 사용하는 형식입니다.

  • 데이터 세트 크기 : 349.76 MiB

  • 분할 :

나뉘다
'test' 362
'train' 6,514
'validation' 362
  • 기능 구조 :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'reports': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
ID 텍스트
출시일 텍스트
보고서 텍스트
요약 텍스트
제목 텍스트

gov_report/gao_whitespace

  • 구성 설명 : 강조 구조가 있는 GAO 보고서가 평면화되고 공백으로 결합됩니다. 원본 용지에서 사용하는 형식입니다.

  • 데이터 세트 크기 : 690.24 MiB

  • 분할 :

나뉘다
'test' 611
'train' 11,005
'validation' 612
  • 기능 구조 :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=string),
    'highlight': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'published_date': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'report': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
패스트팩트 텍스트
가장 밝은 부분 텍스트
ID 텍스트
게시된_날짜 텍스트
출시일 텍스트
보고서 텍스트
제목 텍스트
URL 텍스트

gov_report/crs_html

  • 구성 설명 : 요약이 포함된 CRS 보고서입니다. html 태그를 추가하는 동안 구조가 평면화되고 줄 바꿈으로 결합됩니다. 태그는 <h2>xxx<h2> 와 같은 형식의 secition_title에만 추가됩니다.

  • 데이터 세트 크기 : 351.25 MiB

  • 분할 :

나뉘다
'test' 362
'train' 6,514
'validation' 362
  • 기능 구조 :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'reports': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
ID 텍스트
출시일 텍스트
보고서 텍스트
요약 텍스트
제목 텍스트

gov_report/gao_html

  • 구성 설명 : 강조 표시 구조가 있는 GAO 보고서는 html 태그를 추가하는 동안 평면화되고 줄바꿈으로 결합됩니다. 태그는 <h2>xxx<h2> 와 같은 형식의 secition_title에만 추가됩니다.

  • 데이터 세트 크기 : 692.72 MiB

  • 분할 :

나뉘다
'test' 611
'train' 11,005
'validation' 612
  • 기능 구조 :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=string),
    'highlight': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'published_date': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'report': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
패스트팩트 텍스트
가장 밝은 부분 텍스트
ID 텍스트
게시된_날짜 텍스트
출시일 텍스트
보고서 텍스트
제목 텍스트
URL 텍스트

gov_report/crs_json

  • 구성 설명 : 요약이 포함된 CRS 보고서입니다. 원시 json으로 표현되는 구조.

  • 데이터 세트 크기 : 361.92 MiB

  • 분할 :

나뉘다
'test' 362
'train' 6,514
'validation' 362
  • 기능 구조 :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'reports': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
ID 텍스트
출시일 텍스트
보고서 텍스트
요약 텍스트
제목 텍스트

gov_report/gao_json

  • 구성 설명 : 원시 json으로 표시되는 구조 강조 표시가 있는 GAO 보고서.

  • 데이터 세트 크기 : 712.82 MiB

  • 분할 :

나뉘다
'test' 611
'train' 11,005
'validation' 612
  • 기능 구조 :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=string),
    'highlight': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'published_date': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'report': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
패스트팩트 텍스트
가장 밝은 부분 텍스트
ID 텍스트
게시된_날짜 텍스트
출시일 텍스트
보고서 텍스트
제목 텍스트
URL 텍스트