- תיאור :
מערך הדוחות הממשלתי מורכב מדוחות שנכתבו על ידי סוכנויות מחקר ממשלתיות, כולל שירות המחקר של הקונגרס ומשרד האחריות של ממשלת ארה"ב.
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://gov-report-data.github.io/
קוד מקור :
tfds.summarization.gov_report.GovReport
גרסאות :
-
1.0.0
(ברירת מחדל): שחרור ראשוני.
-
גודל הורדה :
320.59 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@inproceedings{
anonymous2022efficiently,
title={Efficiently Modeling Long Sequences with Structured State Spaces},
author={Anonymous},
booktitle={Submitted to The Tenth International Conference on Learning Representations },
year={2022},
url={https://openreview.net/forum?id=uYLFoz1vlAC},
note={under review}
}
gov_report/crs_whitespace (תצורת ברירת המחדל)
תיאור תצורה : דוח CRS עם סיכום. מבנים משוטחים ומצטרפים לרווח לבן. זהו הפורמט שבו השתמש הנייר המקורי
גודל ערכת נתונים:
349.76 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 362 |
'train' | 6,514 |
'validation' | 362 |
- מבנה תכונה :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'reports': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
תְעוּדַת זֶהוּת | טֶקסט | חוּט | ||
release_date | טֶקסט | חוּט | ||
דיווחים | טֶקסט | חוּט | ||
סיכום | טֶקסט | חוּט | ||
כותרת | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):('reports', 'summary')
דוגמאות ( tfds.as_dataframe ):
gov_report/gao_whitespace
תיאור תצורה : דוח GAO עם הדגשה של מבנים משוטחים ומצטרפים לרווח לבן. זהו הפורמט שבו השתמש הנייר המקורי
גודל ערכת נתונים:
690.24 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 611 |
'train' | 11,005 |
'validation' | 612 |
- מבנה תכונה :
FeaturesDict({
'fastfact': Text(shape=(), dtype=string),
'highlight': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'published_date': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'report': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
fastfact | טֶקסט | חוּט | ||
שִׂיא | טֶקסט | חוּט | ||
תְעוּדַת זֶהוּת | טֶקסט | חוּט | ||
תאריך_פורסם | טֶקסט | חוּט | ||
release_date | טֶקסט | חוּט | ||
להגיש תלונה | טֶקסט | חוּט | ||
כותרת | טֶקסט | חוּט | ||
כתובת אתר | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):('report', 'highlight')
דוגמאות ( tfds.as_dataframe ):
gov_report/crs_html
תיאור תצורה : דוח CRS עם סיכום. מבנים שוטחו והצטרפו על ידי קו חדש תוך הוספת תגי HTML. תגים מתווספים רק עבור secition_title בפורמט כמו
<h2>xxx<h2>
.גודל מערך נתונים :
351.25 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 362 |
'train' | 6,514 |
'validation' | 362 |
- מבנה תכונה :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'reports': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
תְעוּדַת זֶהוּת | טֶקסט | חוּט | ||
release_date | טֶקסט | חוּט | ||
דיווחים | טֶקסט | חוּט | ||
סיכום | טֶקסט | חוּט | ||
כותרת | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):('reports', 'summary')
דוגמאות ( tfds.as_dataframe ):
gov_report/gao_html
תיאור תצורה : דוח GAO עם הדגשה של מבנים משוטחים ומצטרפים בשורה חדשה תוך הוספת תגי html. תגים מתווספים רק עבור secition_title בפורמט כמו
<h2>xxx<h2>
.גודל מערך נתונים :
692.72 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 611 |
'train' | 11,005 |
'validation' | 612 |
- מבנה תכונה :
FeaturesDict({
'fastfact': Text(shape=(), dtype=string),
'highlight': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'published_date': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'report': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
fastfact | טֶקסט | חוּט | ||
שִׂיא | טֶקסט | חוּט | ||
תְעוּדַת זֶהוּת | טֶקסט | חוּט | ||
תאריך_פורסם | טֶקסט | חוּט | ||
release_date | טֶקסט | חוּט | ||
להגיש תלונה | טֶקסט | חוּט | ||
כותרת | טֶקסט | חוּט | ||
כתובת אתר | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):('report', 'highlight')
דוגמאות ( tfds.as_dataframe ):
gov_report/crs_json
תיאור תצורה : דוח CRS עם סיכום. מבנים המיוצגים כ-json גולמי.
גודל ערכת נתונים:
361.92 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 362 |
'train' | 6,514 |
'validation' | 362 |
- מבנה תכונה :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'reports': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
תְעוּדַת זֶהוּת | טֶקסט | חוּט | ||
release_date | טֶקסט | חוּט | ||
דיווחים | טֶקסט | חוּט | ||
סיכום | טֶקסט | חוּט | ||
כותרת | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):('reports', 'summary')
דוגמאות ( tfds.as_dataframe ):
gov_report/gao_json
תיאור תצורה : דוח GAO עם מבני הדגשה המיוצגים כ-json גולמי.
גודל ערכת נתונים:
712.82 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 611 |
'train' | 11,005 |
'validation' | 612 |
- מבנה תכונה :
FeaturesDict({
'fastfact': Text(shape=(), dtype=string),
'highlight': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'published_date': Text(shape=(), dtype=string),
'released_date': Text(shape=(), dtype=string),
'report': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
fastfact | טֶקסט | חוּט | ||
שִׂיא | טֶקסט | חוּט | ||
תְעוּדַת זֶהוּת | טֶקסט | חוּט | ||
תאריך_פורסם | טֶקסט | חוּט | ||
release_date | טֶקסט | חוּט | ||
להגיש תלונה | טֶקסט | חוּט | ||
כותרת | טֶקסט | חוּט | ||
כתובת אתר | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):('report', 'highlight')
דוגמאות ( tfds.as_dataframe ):