gov_report

  • תיאור :

מערך הדוחות הממשלתי מורכב מדוחות שנכתבו על ידי סוכנויות מחקר ממשלתיות כולל שירות המחקר של הקונגרס ומשרד האחריות של ממשלת ארה"ב.

@inproceedings{
anonymous2022efficiently,
title={Efficiently Modeling Long Sequences with Structured State Spaces},
author={Anonymous},
booktitle={Submitted to The Tenth International Conference on Learning Representations },
year={2022},
url={https://openreview.net/forum?id=uYLFoz1vlAC},
note={under review}
}

gov_report/crs_whitespace (תצורת ברירת המחדל)

  • תיאור תצורה : דוח CRS עם סיכום. מבנים משוטחים ומצטרפים לרווח לבן. זהו הפורמט שבו השתמש הנייר המקורי

  • גודל מערך נתונים : 349.76 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 362
'train' 6,514
'validation' 362
  • תכונות :
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'released_date': Text(shape=(), dtype=tf.string),
    'reports': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})

gov_report/gao_whitespace

  • תיאור תצורה : דוח GAO עם הדגשה של מבנים משוטחים ומצטרפים לרווח לבן. זהו הפורמט שבו השתמש הנייר המקורי

  • גודל מערך נתונים : 690.24 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 611
'train' 11,005
'validation' 612
  • תכונות :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=tf.string),
    'highlight': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'published_date': Text(shape=(), dtype=tf.string),
    'released_date': Text(shape=(), dtype=tf.string),
    'report': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})

gov_report/crs_html

  • תיאור תצורה : דוח CRS עם סיכום. מבנים שוטחו והצטרפו על ידי קו חדש תוך הוספת תגי html. תגים מתווספים רק עבור secition_title בפורמט כמו <h2>xxx<h2> .

  • גודל ערכת נתונים: 351.25 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 362
'train' 6,514
'validation' 362
  • תכונות :
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'released_date': Text(shape=(), dtype=tf.string),
    'reports': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})

gov_report/gao_html

  • תיאור תצורה : דוח GAO עם הדגשה של מבנים משוטחים והצטרפו על ידי קו חדש תוך הוספת תגי HTML. תגים מתווספים רק עבור secition_title בפורמט כמו <h2>xxx<h2> .

  • גודל ערכת נתונים: 692.72 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 611
'train' 11,005
'validation' 612
  • תכונות :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=tf.string),
    'highlight': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'published_date': Text(shape=(), dtype=tf.string),
    'released_date': Text(shape=(), dtype=tf.string),
    'report': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})

gov_report/crs_json

  • תיאור תצורה : דוח CRS עם סיכום. מבנים המיוצגים כ-json גולמי.

  • גודל ערכת נתונים: 361.92 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 362
'train' 6,514
'validation' 362
  • תכונות :
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'released_date': Text(shape=(), dtype=tf.string),
    'reports': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})

gov_report/gao_json

  • תיאור תצורה : דוח GAO עם מבני הדגשה המיוצגים כ-json גולמי.

  • גודל ערכת נתונים: 712.82 MiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 611
'train' 11,005
'validation' 612
  • תכונות :
FeaturesDict({
    'fastfact': Text(shape=(), dtype=tf.string),
    'highlight': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'published_date': Text(shape=(), dtype=tf.string),
    'released_date': Text(shape=(), dtype=tf.string),
    'report': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})