- תיאור :
BillSum, סיכום הצעות חוק של הקונגרס האמריקאי ומדינת קליפורניה.
ישנן מספר תכונות: - טקסט: טקסט שטר. - סיכום: סיכום החשבונות. - כותרת: כותרת השטרות. תכונות עבורנו שטרות. לשטרות ca אין. - text_len: מספר תווים בטקסט. - sum_len: מספר התווים בסיכום.
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://github.com/FiscalNote/BillSum
קוד מקור :
tfds.datasets.billsum.Builder
גרסאות :
-
3.0.0
(ברירת מחדל): אין הערות שחרור.
-
גודל הורדה :
64.14 MiB
גודל מערך נתונים :
260.84 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'ca_test' | 1,237 |
'test' | 3,269 |
'train' | 18,949 |
- מבנה תכונה :
FeaturesDict({
'summary': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
סיכום | טֶקסט | חוּט | ||
טֶקסט | טֶקסט | חוּט | ||
כותרת | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):('text', 'summary')
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@misc{kornilova2019billsum,
title={BillSum: A Corpus for Automatic Summarization of US Legislation},
author={Anastassia Kornilova and Vlad Eidelman},
year={2019},
eprint={1910.00523},
archivePrefix={arXiv},
primaryClass={cs.CL}
}