- תיאור :
BIGPATENT, המורכב מ-1.3 מיליון רשומות של מסמכי פטנט בארה"ב יחד עם סיכומים מופשטים בכתב אנושי. כל בקשה לפטנט בארה"ב מוגשת תחת קוד Cooperative Patent Classification (CPC). קיימות תשע קטגוריות סיווג כאלה: A (צורכי אדם), B (ביצוע פעולות; הובלה), C (כימיה; מטלורגיה), D (טקסטיל; נייר), E (קונסטרוקציות קבועות), F (הנדסת מכונות; ברק; חימום; כלי נשק; פיצוץ), G (פיזיקה), H (חשמל) ו-Y (תיוג כללי של טכנולוגיה חדשה או חתך)
ישנן שתי תכונות: - תיאור: תיאור מפורט של הפטנט. - תקציר: אבסטרקט פטנט.
דף הבית : https://evasharma.github.io/bigpatent/
קוד מקור :
tfds.summarization.BigPatent
גרסאות :
-
1.0.0
: מילים באותיות קטנות -
2.0.0
: עדכון לשימוש במחרוזות גולמיות עם כיסויים -
2.1.2
(ברירת מחדל): תקן עדכון למחרוזות גולמיות עם מעטפות.
-
גודל הורדה :
9.45 GiB
שמור אוטומטי במטמון ( תיעוד ): לא
מבנה תכונה :
FeaturesDict({
'abstract': Text(shape=(), dtype=tf.string),
'description': Text(shape=(), dtype=tf.string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
תַקצִיר | טֶקסט | tf.string | ||
תיאור | טֶקסט | tf.string |
מפתחות בפיקוח (ראה
as_supervised
doc ):('description', 'abstract')
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ): חסר.
ציטוט :
@misc{sharma2019bigpatent,
title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
author={Eva Sharma and Chen Li and Lu Wang},
year={2019},
eprint={1906.03741},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
big_patent/all (תצורת ברירת המחדל)
תיאור תצורה : פטנטים תחת כל הקטגוריות.
גודל מערך נתונים :
35.17 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 67,072 |
'train' | 1,207,222 |
'validation' | 67,068 |
פטנט_גדול/א
תיאור תצורה : פטנטים תחת סיווג פטנט שיתופי (CPC)a: צורכי אדם
גודל מערך נתונים :
5.16 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 9,675 |
'train' | 174,134 |
'validation' | 9,674 |
פטנט_גדול/ב
תיאור תצורה : פטנטים תחת סיווג פטנטים שיתופי (CPC)b: ביצוע פעולות; הובלה
גודל מערך נתונים :
4.06 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 8,974 |
'train' | 161,520 |
'validation' | 8,973 |
פטנט_גדול/ג
תיאור תצורה : פטנטים תחת סיווג פטנטים שיתופי (CPC)c: כימיה; מֵטַלוּרגִיָה
גודל מערך נתונים :
3.63 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 5,614 |
'train' | 101,042 |
'validation' | 5,613 |
פטנט_גדול/ד
תיאור תצורה : פטנטים תחת סיווג פטנט שיתופי (CPC)d: טקסטיל; עיתון
גודל ערכת נתונים:
255.56 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 565 |
'train' | 10,164 |
'validation' | 565 |
big_patent/e
תיאור תצורה : פטנטים תחת סיווג פטנט שיתופי (CPC)e: מבנים קבועים
גודל ערכת נתונים:
871.40 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 1,914 |
'train' | 34,443 |
'validation' | 1,914 |
פטנט_גדול/ו
תיאור תצורה : פטנטים תחת סיווג פטנט שיתופי (CPC)f: הנדסת מכונות; בָּרָק; הַסָקָה; כלי נשק; פיצוץ
גודל מערך נתונים :
2.06 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 4,754 |
'train' | 85,568 |
'validation' | 4,754 |
big_patent/g
תיאור תצורה : פטנטים תחת סיווג פטנט שיתופי (CPC)g: פיזיקה
גודל ערכת נתונים :
8.19 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 14,386 |
'train' | 258,935 |
'validation' | 14,385 |
big_patent/h
תיאור תצורה : פטנטים תחת סיווג פטנטים שיתופי (CPC)h: חשמל
גודל מערך נתונים :
7.50 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 14,279 |
'train' | 257,019 |
'validation' | 14,279 |
big_patent/y
תיאור תצורה : פטנטים תחת סיווג פטנטים שיתופי (CPC)y: תיוג כללי של טכנולוגיה חדשה או חתך רוחב
גודל מערך נתונים :
3.46 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 6,911 |
'train' | 124,397 |
'validation' | 6,911 |