informe_gov

  • Descripción :

El conjunto de datos de informes gubernamentales consiste en informes escritos por agencias de investigación gubernamentales, incluido el Servicio de Investigación del Congreso y la Oficina de Responsabilidad del Gobierno de EE. UU.

@inproceedings{
anonymous2022efficiently,
title={Efficiently Modeling Long Sequences with Structured State Spaces},
author={Anonymous},
booktitle={Submitted to The Tenth International Conference on Learning Representations },
year={2022},
url={https://openreview.net/forum?id=uYLFoz1vlAC},
note={under review}
}

gov_report/crs_whitespace (configuración predeterminada)

  • Descripción de la configuración : informe CRS con resumen. Estructuras aplanadas y unidas por espacios en blanco. Este es el formato utilizado por el papel original

  • Tamaño del conjunto de datos : 349.76 MiB

  • Divisiones :

Separar Ejemplos
'test' 362
'train' 6,514
'validation' 362
  • Estructura de características :
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'released_date': Text(shape=(), dtype=tf.string),
    'reports': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
identificación Texto tf.cadena
fecha de lanzamiento Texto tf.cadena
informes Texto tf.cadena
resumen Texto tf.cadena
título Texto tf.cadena

gov_report/gao_espacio en blanco

  • Descripción de la configuración : informe GAO con estructuras resaltadas aplanadas y unidas por espacios en blanco. Este es el formato utilizado por el papel original

  • Tamaño del conjunto de datos : 690.24 MiB

  • Divisiones :

Separar Ejemplos
'test' 611
'train' 11,005
'validation' 612
  • Estructura de características :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=tf.string),
    'highlight': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'published_date': Text(shape=(), dtype=tf.string),
    'released_date': Text(shape=(), dtype=tf.string),
    'report': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
hecho rápido Texto tf.cadena
destacar Texto tf.cadena
identificación Texto tf.cadena
Fecha de Publicación Texto tf.cadena
fecha de lanzamiento Texto tf.cadena
reporte Texto tf.cadena
título Texto tf.cadena
URL Texto tf.cadena

informe_gov/crs_html

  • Descripción de la configuración : informe CRS con resumen. Estructuras aplanadas y unidas por nueva línea mientras se agregan etiquetas html. Las etiquetas solo se agregan para section_title en un formato como <h2>xxx<h2> .

  • Tamaño del conjunto de datos : 351.25 MiB

  • Divisiones :

Separar Ejemplos
'test' 362
'train' 6,514
'validation' 362
  • Estructura de características :
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'released_date': Text(shape=(), dtype=tf.string),
    'reports': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
identificación Texto tf.cadena
fecha de lanzamiento Texto tf.cadena
informes Texto tf.cadena
resumen Texto tf.cadena
título Texto tf.cadena

gov_report/gao_html

  • Descripción de la configuración : informe GAO con estructuras resaltadas aplanadas y unidas por nueva línea mientras se agregan etiquetas html. Las etiquetas solo se agregan para section_title en un formato como <h2>xxx<h2> .

  • Tamaño del conjunto de datos : 692.72 MiB

  • Divisiones :

Separar Ejemplos
'test' 611
'train' 11,005
'validation' 612
  • Estructura de características :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=tf.string),
    'highlight': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'published_date': Text(shape=(), dtype=tf.string),
    'released_date': Text(shape=(), dtype=tf.string),
    'report': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
hecho rápido Texto tf.cadena
destacar Texto tf.cadena
identificación Texto tf.cadena
Fecha de Publicación Texto tf.cadena
fecha de lanzamiento Texto tf.cadena
reporte Texto tf.cadena
título Texto tf.cadena
URL Texto tf.cadena

informe_gov/crs_json

  • Descripción de la configuración : informe CRS con resumen. Estructuras representadas como raw json.

  • Tamaño del conjunto de datos : 361.92 MiB

  • Divisiones :

Separar Ejemplos
'test' 362
'train' 6,514
'validation' 362
  • Estructura de características :
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'released_date': Text(shape=(), dtype=tf.string),
    'reports': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
identificación Texto tf.cadena
fecha de lanzamiento Texto tf.cadena
informes Texto tf.cadena
resumen Texto tf.cadena
título Texto tf.cadena

gov_report/gao_json

  • Descripción de la configuración : informe GAO con estructuras destacadas representadas como json sin procesar.

  • Tamaño del conjunto de datos : 712.82 MiB

  • Divisiones :

Separar Ejemplos
'test' 611
'train' 11,005
'validation' 612
  • Estructura de características :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=tf.string),
    'highlight': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'published_date': Text(shape=(), dtype=tf.string),
    'released_date': Text(shape=(), dtype=tf.string),
    'report': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
hecho rápido Texto tf.cadena
destacar Texto tf.cadena
identificación Texto tf.cadena
Fecha de Publicación Texto tf.cadena
fecha de lanzamiento Texto tf.cadena
reporte Texto tf.cadena
título Texto tf.cadena
URL Texto tf.cadena