gov_report

  • Описание :

Набор данных государственных отчетов состоит из отчетов, написанных государственными исследовательскими агентствами, включая Исследовательскую службу Конгресса и Счетную палату правительства США.

@inproceedings{
anonymous2022efficiently,
title={Efficiently Modeling Long Sequences with Structured State Spaces},
author={Anonymous},
booktitle={Submitted to The Tenth International Conference on Learning Representations },
year={2022},
url={https://openreview.net/forum?id=uYLFoz1vlAC},
note={under review}
}

gov_report/crs_whitespace (конфигурация по умолчанию)

  • Описание конфигурации : отчет CRS со сводкой. Структуры сплющены и соединены пробелами. Это формат, используемый оригинальной бумагой

  • Размер набора данных : 349.76 MiB .

  • Сплиты :

Расколоть Примеры
'test' 362
'train' 6514
'validation' 362
  • Особенности :
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'released_date': Text(shape=(), dtype=tf.string),
    'reports': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})

gov_report/gao_whitespace

  • Описание конфигурации : отчет GAO с выделением структур, сглаженных и соединенных пробелами. Это формат, используемый оригинальной бумагой

  • Размер набора данных : 690.24 MiB .

  • Сплиты :

Расколоть Примеры
'test' 611
'train' 11 005
'validation' 612
  • Особенности :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=tf.string),
    'highlight': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'published_date': Text(shape=(), dtype=tf.string),
    'released_date': Text(shape=(), dtype=tf.string),
    'report': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})

gov_report/crs_html

  • Описание конфигурации : отчет CRS со сводкой. Структуры выравниваются и соединяются новой строкой при добавлении тегов html. Теги добавляются только для section_title в формате <h2>xxx<h2> .

  • Размер набора данных : 351.25 MiB .

  • Сплиты :

Расколоть Примеры
'test' 362
'train' 6514
'validation' 362
  • Особенности :
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'released_date': Text(shape=(), dtype=tf.string),
    'reports': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})

gov_report/gao_html

  • Описание конфигурации : отчет GAO с выделением структур, сглаженных и объединенных новой строкой при добавлении тегов html. Теги добавляются только для section_title в формате <h2>xxx<h2> .

  • Размер набора данных : 692.72 MiB .

  • Сплиты :

Расколоть Примеры
'test' 611
'train' 11 005
'validation' 612
  • Особенности :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=tf.string),
    'highlight': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'published_date': Text(shape=(), dtype=tf.string),
    'released_date': Text(shape=(), dtype=tf.string),
    'report': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})

gov_report/crs_json

  • Описание конфигурации : отчет CRS со сводкой. Структуры представлены в виде необработанного json.

  • Размер набора данных : 361.92 MiB .

  • Сплиты :

Расколоть Примеры
'test' 362
'train' 6514
'validation' 362
  • Особенности :
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'released_date': Text(shape=(), dtype=tf.string),
    'reports': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})

gov_report/gao_json

  • Описание конфигурации : отчет GAO с выделением структур, представленных в виде необработанного json.

  • Размер набора данных : 712.82 MiB .

  • Сплиты :

Расколоть Примеры
'test' 611
'train' 11 005
'validation' 612
  • Особенности :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=tf.string),
    'highlight': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'published_date': Text(shape=(), dtype=tf.string),
    'released_date': Text(shape=(), dtype=tf.string),
    'report': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})