פטנט_גדול

 • תיאור :

BIGPATENT, המורכב מ-1.3 מיליון רשומות של מסמכי פטנט בארה"ב יחד עם סיכומים מופשטים בכתב אנושי. כל בקשה לפטנט בארה"ב מוגשת תחת קוד Cooperative Patent Classification (CPC). קיימות תשע קטגוריות סיווג כאלה: A (צורכי אדם), B (ביצוע פעולות; הובלה), C (כימיה; מטלורגיה), D (טקסטיל; נייר), E (קונסטרוקציות קבועות), F (הנדסת מכונות; ברק; חימום; כלי נשק; פיצוץ), G (פיזיקה), H (חשמל) ו-Y (תיוג כללי של טכנולוגיה חדשה או חתך)

ישנן שתי תכונות: - תיאור: תיאור מפורט של הפטנט. - תקציר: אבסטרקט פטנט.

 • דף הבית : https://evasharma.github.io/bigpatent/

 • קוד מקור : tfds.summarization.BigPatent

 • גרסאות :

  • 1.0.0 : מילים באותיות קטנות
  • 2.0.0 : עדכון לשימוש במחרוזות גולמיות עם כיסויים
  • 2.1.2 (ברירת מחדל): תקן עדכון למחרוזות גולמיות עם מעטפות.
 • גודל הורדה : 9.45 GiB

 • שמור אוטומטי במטמון ( תיעוד ): לא

 • מבנה תכונה :

FeaturesDict({
  'abstract': Text(shape=(), dtype=tf.string),
  'description': Text(shape=(), dtype=tf.string),
})
 • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תַקצִיר טֶקסט tf.string
תיאור טֶקסט tf.string
@misc{sharma2019bigpatent,
  title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
  author={Eva Sharma and Chen Li and Lu Wang},
  year={2019},
  eprint={1906.03741},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}

big_patent/all (תצורת ברירת המחדל)

 • תיאור תצורה : פטנטים תחת כל הקטגוריות.

 • גודל מערך נתונים : 35.17 GiB

 • פיצולים :

לְפַצֵל דוגמאות
'test' 67,072
'train' 1,207,222
'validation' 67,068

פטנט_גדול/א

 • תיאור תצורה : פטנטים תחת סיווג פטנט שיתופי (CPC)a: צורכי אדם

 • גודל מערך נתונים : 5.16 GiB

 • פיצולים :

לְפַצֵל דוגמאות
'test' 9,675
'train' 174,134
'validation' 9,674

פטנט_גדול/ב

 • תיאור תצורה : פטנטים תחת סיווג פטנטים שיתופי (CPC)b: ביצוע פעולות; הובלה

 • גודל מערך נתונים : 4.06 GiB

 • פיצולים :

לְפַצֵל דוגמאות
'test' 8,974
'train' 161,520
'validation' 8,973

פטנט_גדול/ג

 • תיאור תצורה : פטנטים תחת סיווג פטנטים שיתופי (CPC)c: כימיה; מֵטַלוּרגִיָה

 • גודל מערך נתונים : 3.63 GiB

 • פיצולים :

לְפַצֵל דוגמאות
'test' 5,614
'train' 101,042
'validation' 5,613

פטנט_גדול/ד

 • תיאור תצורה : פטנטים תחת סיווג פטנט שיתופי (CPC)d: טקסטיל; עיתון

 • גודל ערכת נתונים: 255.56 MiB

 • פיצולים :

לְפַצֵל דוגמאות
'test' 565
'train' 10,164
'validation' 565

big_patent/e

 • תיאור תצורה : פטנטים תחת סיווג פטנט שיתופי (CPC)e: מבנים קבועים

 • גודל ערכת נתונים: 871.40 MiB

 • פיצולים :

לְפַצֵל דוגמאות
'test' 1,914
'train' 34,443
'validation' 1,914

פטנט_גדול/ו

 • תיאור תצורה : פטנטים תחת סיווג פטנט שיתופי (CPC)f: הנדסת מכונות; בָּרָק; הַסָקָה; כלי נשק; פיצוץ

 • גודל מערך נתונים : 2.06 GiB

 • פיצולים :

לְפַצֵל דוגמאות
'test' 4,754
'train' 85,568
'validation' 4,754

big_patent/g

 • תיאור תצורה : פטנטים תחת סיווג פטנט שיתופי (CPC)g: פיזיקה

 • גודל ערכת נתונים : 8.19 GiB

 • פיצולים :

לְפַצֵל דוגמאות
'test' 14,386
'train' 258,935
'validation' 14,385

big_patent/h

 • תיאור תצורה : פטנטים תחת סיווג פטנטים שיתופי (CPC)h: חשמל

 • גודל מערך נתונים : 7.50 GiB

 • פיצולים :

לְפַצֵל דוגמאות
'test' 14,279
'train' 257,019
'validation' 14,279

big_patent/y

 • תיאור תצורה : פטנטים תחת סיווג פטנטים שיתופי (CPC)y: תיוג כללי של טכנולוגיה חדשה או חתך רוחב

 • גודל מערך נתונים : 3.46 GiB

 • פיצולים :

לְפַצֵל דוגמאות
'test' 6,911
'train' 124,397
'validation' 6,911