gov_report

  • توضیحات :

مجموعه داده گزارش دولتی شامل گزارش هایی است که توسط آژانس های تحقیقاتی دولتی از جمله سرویس تحقیقات کنگره و دفتر پاسخگویی دولت ایالات متحده نوشته شده است.

@inproceedings{
anonymous2022efficiently,
title={Efficiently Modeling Long Sequences with Structured State Spaces},
author={Anonymous},
booktitle={Submitted to The Tenth International Conference on Learning Representations },
year={2022},
url={https://openreview.net/forum?id=uYLFoz1vlAC},
note={under review}
}

gov_report/crs_whitespace (پیکربندی پیش‌فرض)

  • توضیحات پیکربندی : گزارش CRS با خلاصه. سازه ها مسطح شده و با فضای سفید به هم می پیوندند. این قالبی است که توسط کاغذ اصلی استفاده می شود

  • حجم مجموعه داده : 349.76 MiB

  • تقسیم ها :

شکاف مثال ها
'test' 362
'train' 6514
'validation' 362
  • ساختار ویژگی :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'reports': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
شناسه متن رشته
تاریخ انتشار متن رشته
گزارش ها متن رشته
خلاصه متن رشته
عنوان متن رشته
  • کلیدهای نظارت شده (به as_supervised نظارت شده مراجعه کنید): ('reports', 'summary')

  • مثال‌ها ( tfds.as_dataframe ):

gov_report/gao_whitespace

  • توضیحات پیکربندی : گزارش GAO با ساختارهای برجسته صاف شده و با فضای سفید به هم پیوسته است. این قالبی است که توسط کاغذ اصلی استفاده می شود

  • حجم مجموعه داده : 690.24 MiB

  • تقسیم ها :

شکاف مثال ها
'test' 611
'train' 11005
'validation' 612
  • ساختار ویژگی :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=string),
    'highlight': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'published_date': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'report': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
fastfact متن رشته
برجسته متن رشته
شناسه متن رشته
انتشار_تاریخ متن رشته
تاریخ انتشار متن رشته
گزارش متن رشته
عنوان متن رشته
آدرس اینترنتی متن رشته

gov_report/crs_html

  • توضیحات پیکربندی : گزارش CRS با خلاصه. ساختارها صاف شده و با خط جدید به هم پیوسته و تگ های html را اضافه می کنند. برچسب‌ها فقط برای secition_title در قالبی مانند <h2>xxx<h2> اضافه می‌شوند.

  • حجم مجموعه داده : 351.25 MiB

  • تقسیم ها :

شکاف مثال ها
'test' 362
'train' 6514
'validation' 362
  • ساختار ویژگی :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'reports': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
شناسه متن رشته
تاریخ انتشار متن رشته
گزارش ها متن رشته
خلاصه متن رشته
عنوان متن رشته
  • کلیدهای نظارت شده (به as_supervised نظارت شده مراجعه کنید): ('reports', 'summary')

  • مثال‌ها ( tfds.as_dataframe ):

gov_report/gao_html

  • توضیحات پیکربندی : گزارش GAO با ساختارهای هایلایت پهن شده و با خط جدید وصل شده و تگ های html اضافه می شود. برچسب‌ها فقط برای secition_title در قالبی مانند <h2>xxx<h2> اضافه می‌شوند.

  • حجم مجموعه داده : 692.72 MiB

  • تقسیم ها :

شکاف مثال ها
'test' 611
'train' 11005
'validation' 612
  • ساختار ویژگی :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=string),
    'highlight': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'published_date': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'report': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
fastfact متن رشته
برجسته متن رشته
شناسه متن رشته
انتشار_تاریخ متن رشته
تاریخ انتشار متن رشته
گزارش متن رشته
عنوان متن رشته
آدرس اینترنتی متن رشته

gov_report/crs_json

  • توضیحات پیکربندی : گزارش CRS با خلاصه. ساختارها به صورت json خام نمایش داده می شوند.

  • حجم مجموعه داده : 361.92 MiB

  • تقسیم ها :

شکاف مثال ها
'test' 362
'train' 6514
'validation' 362
  • ساختار ویژگی :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'reports': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
شناسه متن رشته
تاریخ انتشار متن رشته
گزارش ها متن رشته
خلاصه متن رشته
عنوان متن رشته
  • کلیدهای نظارت شده (به as_supervised نظارت شده مراجعه کنید): ('reports', 'summary')

  • مثال‌ها ( tfds.as_dataframe ):

gov_report/gao_json

  • توضیحات پیکربندی : گزارش GAO با ساختارهای برجسته که به صورت json خام نشان داده شده است.

  • حجم مجموعه داده : 712.82 MiB

  • تقسیم ها :

شکاف مثال ها
'test' 611
'train' 11005
'validation' 612
  • ساختار ویژگی :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=string),
    'highlight': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'published_date': Text(shape=(), dtype=string),
    'released_date': Text(shape=(), dtype=string),
    'report': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
fastfact متن رشته
برجسته متن رشته
شناسه متن رشته
انتشار_تاریخ متن رشته
تاریخ انتشار متن رشته
گزارش متن رشته
عنوان متن رشته
آدرس اینترنتی متن رشته