ثبت اختراع بزرگ

  • توضیحات :

BIGPATENT، شامل 1.3 میلیون رکورد از اسناد ثبت اختراع ایالات متحده به همراه خلاصه های انتزاعی نوشته شده توسط انسان است. هر درخواست ثبت اختراع ایالات متحده تحت یک کد طبقه بندی پتنت تعاونی (CPC) ثبت می شود. 9 طبقه بندی از این قبیل وجود دارد:

  • الف (نیازهای انسانی)،
  • ب (انجام عملیات، حمل و نقل)،
  • ج (شیمی، متالورژی)،
  • D (منسوجات؛ کاغذ)،
  • E (ساختارهای ثابت)،
  • F (مهندسی مکانیک، صاعقه، گرمایش، سلاح، انفجار)،
  • G (فیزیک)،
  • H (برق) و
  • Y (برچسب گذاری عمومی فناوری جدید یا مقطعی)

دو ویژگی وجود دارد:

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'description': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
خلاصه متن رشته
شرح متن رشته
  • کلیدهای نظارت شده (نگاه کنید as_supervised doc ): ('description', 'abstract')

  • شکل ( tfds.show_examples ): پشتیبانی نمی شود.

  • نقل قول :

@misc{sharma2019bigpatent,
    title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
    author={Eva Sharma and Chen Li and Lu Wang},
    year={2019},
    eprint={1906.03741},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

big_patent/all (پیکربندی پیش‌فرض)

  • توضیحات پیکربندی : ثبت اختراعات تحت همه دسته ها.

  • حجم مجموعه داده : 35.17 GiB

  • تقسیم ها :

شکاف مثال ها
'test' 67,072
'train' 1,207,222
'validation' 67,068

ثبت اختراع بزرگ/الف

  • توضیحات پیکربندی : اختراعات تحت طبقه بندی پتنت تعاونی (CPC)a: نیازهای انسانی

  • حجم مجموعه داده : 5.16 GiB

  • تقسیم ها :

شکاف مثال ها
'test' 9,675
'train' 174,134
'validation' 9674

big_patent/b

  • توضیحات پیکربندی : پتنت‌های تحت طبقه‌بندی پتنت تعاونی (CPC)b: انجام عملیات. حمل و نقل

  • حجم مجموعه داده : 4.06 GiB

  • تقسیم ها :

شکاف مثال ها
'test' 8974
'train' 161,520
'validation' 8973

big_patent/c

  • توضیحات پیکربندی : ثبت اختراعات تحت طبقه بندی پتنت تعاونی (CPC)c: Chemistry; متالورژی

  • حجم مجموعه داده : 3.63 GiB

  • تقسیم ها :

شکاف مثال ها
'test' 5,614
'train' 101,042
'validation' 5,613

big_patent/d

  • توضیحات پیکربندی : اختراعات تحت طبقه بندی پتنت تعاونی (CPC)d: منسوجات. کاغذ

  • حجم مجموعه داده : 255.56 MiB

  • تقسیم ها :

شکاف مثال ها
'test' 565
'train' 10,164
'validation' 565

big_patent/e

  • توضیحات پیکربندی : ثبت اختراعات تحت طبقه بندی پتنت تعاونی (CPC)e: ساختارهای ثابت

  • حجم مجموعه داده : 871.40 MiB

  • تقسیم ها :

شکاف مثال ها
'test' 1,914
'train' 34,443
'validation' 1,914

big_patent/f

  • توضیحات پیکربندی : اختراعات تحت طبقه بندی پتنت تعاونی (CPC)f: مهندسی مکانیک. رعد و برق؛ گرمایش؛ سلاح؛ انفجار

  • حجم مجموعه داده : 2.06 GiB

  • تقسیم ها :

شکاف مثال ها
'test' 4,754
'train' 85,568
'validation' 4,754

big_patent/g

  • توضیحات پیکربندی : اختراعات تحت طبقه بندی پتنت تعاونی (CPC)g: فیزیک

  • حجم مجموعه داده : 8.19 GiB

  • تقسیم ها :

شکاف مثال ها
'test' 14,386
'train' 258935
'validation' 14,385

big_patent/h

  • توضیحات پیکربندی : اختراعات تحت طبقه بندی پتنت تعاونی (CPC)h: برق

  • حجم مجموعه داده : 7.50 GiB

  • تقسیم ها :

شکاف مثال ها
'test' 14279
'train' 257,019
'validation' 14279

big_patent/y

  • توضیحات پیکربندی : ثبت اختراعات تحت طبقه‌بندی پتنت تعاونی (CPC)y: برچسب‌گذاری عمومی فناوری جدید یا مقطعی

  • حجم مجموعه داده : 3.46 GiB

  • تقسیم ها :

شکاف مثال ها
'test' 6911
'train' 124,397
'validation' 6911