- תיאור :
BIGPATENT, המורכב מ-1.3 מיליון רשומות של מסמכי פטנט בארה"ב יחד עם סיכומים מופשטים בכתב אנושי. כל בקשה לפטנט בארה"ב מוגשת תחת קוד Cooperative Patent Classification (CPC). ישנן תשע קטגוריות סיווג כאלה:
- א (צורכי אדם),
- ב (ביצוע פעולות; הובלה),
- C (כימיה; מטלורגיה),
- D (טקסטיל; נייר),
- E (קונסטרוקציות קבועות),
- F (הנדסת מכונות; ברק; חימום; נשק; פיצוץ),
- G (פיזיקה),
- H (חשמל), ו
- Y (תיוג כללי של טכנולוגיה חדשה או חתך)
ישנן שתי תכונות:
- תיאור: תיאור מפורט של הפטנט.
תקציר: תקציר פטנטים.
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://evasharma.github.io/bigpatent/
קוד מקור :
tfds.datasets.big_patent.Builder
גרסאות :
-
1.0.0
: מילים באותיות קטנות -
2.0.0
: עדכון לשימוש במחרוזות גולמיות מכוסות -
2.1.2
(ברירת מחדל): תקן עדכון למחרוזות גולמיות עם מעטפות.
-
גודל הורדה :
9.45 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
מבנה תכונה :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'description': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
תַקצִיר | טֶקסט | חוּט | ||
תיאור | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):('description', 'abstract')
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@misc{sharma2019bigpatent,
title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
author={Eva Sharma and Chen Li and Lu Wang},
year={2019},
eprint={1906.03741},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
big_patent/all (תצורת ברירת המחדל)
תיאור תצורה : פטנטים בכל הקטגוריות.
גודל מערך נתונים :
35.17 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 67,072 |
'train' | 1,207,222 |
'validation' | 67,068 |
- דוגמאות ( tfds.as_dataframe ):
פטנט_גדול/א
תיאור תצורה : פטנטים תחת סיווג פטנטים שיתופי (CPC)a: צורכי אדם
גודל מערך נתונים :
5.16 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 9,675 |
'train' | 174,134 |
'validation' | 9,674 |
- דוגמאות ( tfds.as_dataframe ):
פטנט_גדול/ב
תיאור תצורה : פטנטים תחת סיווג פטנטים שיתופי (CPC)b: ביצוע פעולות; הובלה
גודל מערך נתונים :
4.06 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 8,974 |
'train' | 161,520 |
'validation' | 8,973 |
- דוגמאות ( tfds.as_dataframe ):
פטנט_גדול/ג
תיאור תצורה : פטנטים תחת סיווג פטנטים שיתופי (CPC)c: כימיה; מֵטַלוּרגִיָה
גודל מערך נתונים :
3.63 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 5,614 |
'train' | 101,042 |
'validation' | 5,613 |
- דוגמאות ( tfds.as_dataframe ):
פטנט_גדול/ד
תיאור תצורה : פטנטים תחת סיווג פטנט שיתופי (CPC)d: טקסטיל; עיתון
גודל ערכת נתונים :
255.56 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 565 |
'train' | 10,164 |
'validation' | 565 |
- דוגמאות ( tfds.as_dataframe ):
big_patent/e
תיאור תצורה : פטנטים תחת סיווג פטנט שיתופי (CPC)e: מבנים קבועים
גודל ערכת נתונים :
871.40 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 1,914 |
'train' | 34,443 |
'validation' | 1,914 |
- דוגמאות ( tfds.as_dataframe ):
פטנט_גדול/ו
תיאור תצורה : פטנטים תחת סיווג פטנטים שיתופי (CPC)f: הנדסת מכונות; בָּרָק; הַסָקָה; כלי נשק; פיצוץ
גודל מערך נתונים :
2.06 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 4,754 |
'train' | 85,568 |
'validation' | 4,754 |
- דוגמאות ( tfds.as_dataframe ):
big_patent/g
תיאור תצורה : פטנטים תחת סיווג פטנטים שיתופי (CPC)g: פיזיקה
גודל מערך נתונים :
8.19 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 14,386 |
'train' | 258,935 |
'validation' | 14,385 |
- דוגמאות ( tfds.as_dataframe ):
big_patent/h
תיאור תצורה : פטנטים תחת סיווג פטנטים שיתופי (CPC)h: חשמל
גודל מערך נתונים :
7.50 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 14,279 |
'train' | 257,019 |
'validation' | 14,279 |
- דוגמאות ( tfds.as_dataframe ):
big_patent/y
תיאור תצורה : פטנטים תחת סיווג פטנטים שיתופי (CPC)y: תיוג כללי של טכנולוגיה חדשה או חתך רוחב
גודל מערך נתונים :
3.46 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 6,911 |
'train' | 124,397 |
'validation' | 6,911 |
- דוגמאות ( tfds.as_dataframe ):