big_patent

  • คำอธิบาย :

BIGPATENT ประกอบด้วยบันทึกเอกสารสิทธิบัตรของสหรัฐอเมริกาจำนวน 1.3 ล้านฉบับ พร้อมด้วยบทสรุปเชิงนามธรรมที่เขียนโดยมนุษย์ คำขอรับสิทธิบัตรของสหรัฐอเมริกาแต่ละรายการยื่นภายใต้รหัส Cooperative Patent Classification (CPC) การจำแนกประเภทนี้มีเก้าประเภท:

  • A (ความจำเป็นของมนุษย์),
  • B (การปฏิบัติงาน; การขนส่ง),
  • C (เคมี โลหะวิทยา)
  • D (สิ่งทอ กระดาษ)
  • E (โครงสร้างคงที่),
  • F (วิศวกรรมเครื่องกล สายฟ้า ความร้อน อาวุธ การระเบิด)
  • G (ฟิสิกส์),
  • H (ไฟฟ้า) และ
  • Y (การติดแท็กทั่วไปของเทคโนโลยีใหม่หรือภาคตัดขวาง)

มีสองคุณสมบัติ:

  • คำอธิบาย: คำอธิบายโดยละเอียดของสิทธิบัตร
  • สรุป: บทคัดย่อสิทธิบัตร.

  • เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส

  • หน้าแรก : https://evasharma.github.io/bigpatent/

  • รหัสที่มา : tfds.datasets.big_patent.Builder

  • รุ่น :

    • 1.0.0 : คำโทเค็นตัวพิมพ์เล็ก
    • 2.0.0 : อัปเดตเพื่อใช้สตริงดิบที่ใส่เคส
    • 2.1.2 (ค่าเริ่มต้น): แก้ไขการอัปเดตเป็นสตริงดิบที่ใส่เคส
  • ขนาดการดาวน์โหลด : 9.45 GiB

  • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

  • โครงสร้างคุณลักษณะ :

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'description': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
เชิงนามธรรม ข้อความ สตริง
คำอธิบาย ข้อความ สตริง
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('description', 'abstract')

  • รูปภาพ ( tfds.show_examples ): ไม่รองรับ

  • การอ้างอิง :

@misc{sharma2019bigpatent,
    title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
    author={Eva Sharma and Chen Li and Lu Wang},
    year={2019},
    eprint={1906.03741},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

big_patent/all (การกำหนดค่าเริ่มต้น)

  • คำอธิบายการกำหนดค่า : สิทธิบัตรในทุกหมวดหมู่

  • ขนาดชุดข้อมูล : 35.17 GiB

  • แยก :

แยก ตัวอย่าง
'test' 67,072
'train' 1,207,222
'validation' 67,068

big_patent/ก

  • คำอธิบายการกำหนดค่า : สิทธิบัตรภายใต้ Cooperative Patent Classification (CPC)ก: ความจำเป็นของมนุษย์

  • ขนาดชุดข้อมูล : 5.16 GiB

  • แยก :

แยก ตัวอย่าง
'test' 9,675
'train' 174,134
'validation' 9,674

big_patent/ข

  • คำอธิบายการกำหนดค่า : สิทธิบัตรภายใต้การจำแนกประเภทสิทธิบัตรแบบร่วมมือ (CPC)b: การดำเนินการ; การขนส่ง

  • ขนาดชุดข้อมูล : 4.06 GiB

  • แยก :

แยก ตัวอย่าง
'test' 8,974
'train' 161,520
'validation' 8,973

big_patent/ค

  • คำอธิบายการกำหนดค่า : สิทธิบัตรภายใต้การจำแนกประเภทสิทธิบัตรแบบร่วมมือ (CPC)c: เคมี; โลหะวิทยา

  • ขนาดชุดข้อมูล : 3.63 GiB

  • แยก :

แยก ตัวอย่าง
'test' 5,614
'train' 101,042
'validation' 5,613

big_patent/ด

  • คำอธิบายการกำหนดค่า : สิทธิบัตรภายใต้การจำแนกประเภทสิทธิบัตรแบบร่วมมือ (CPC)d: สิ่งทอ; กระดาษ

  • ขนาดชุดข้อมูล : 255.56 MiB

  • แยก :

แยก ตัวอย่าง
'test' 565
'train' 10,164
'validation' 565

big_patent/จ

  • คำอธิบายการกำหนดค่า : สิทธิบัตรภายใต้การจำแนกประเภทสิทธิบัตรแบบร่วมมือ (CPC)e: โครงสร้างคงที่

  • ขนาดชุดข้อมูล : 871.40 MiB

  • แยก :

แยก ตัวอย่าง
'test' 1,914
'train' 34,443
'validation' 1,914

big_patent/ฉ

  • คำอธิบายการกำหนดค่า : สิทธิบัตรภายใต้การจำแนกประเภทสิทธิบัตรแบบร่วมมือ (CPC)f: วิศวกรรมเครื่องกล; ฟ้าผ่า; เครื่องทำความร้อน; อาวุธ; ระเบิด

  • ขนาดชุดข้อมูล : 2.06 GiB

  • แยก :

แยก ตัวอย่าง
'test' 4,754
'train' 85,568
'validation' 4,754

big_patent/ก

  • คำอธิบายการกำหนดค่า : สิทธิบัตรภายใต้การจำแนกประเภทสิทธิบัตรแบบร่วมมือ (CPC)g: ฟิสิกส์

  • ขนาดชุดข้อมูล : 8.19 GiB

  • แยก :

แยก ตัวอย่าง
'test' 14,386
'train' 258,935
'validation' 14,385

big_patent/ชม

  • คำอธิบายการกำหนดค่า : สิทธิบัตรภายใต้การจำแนกประเภทสิทธิบัตรแบบร่วมมือ (CPC)h: ไฟฟ้า

  • ขนาดชุดข้อมูล : 7.50 GiB

  • แยก :

แยก ตัวอย่าง
'test' 14,279
'train' 257,019
'validation' 14,279

big_patent/ย

  • คำอธิบายการกำหนดค่า : สิทธิบัตรภายใต้ Cooperative Patent Classification (CPC)y: การติดแท็กทั่วไปของเทคโนโลยีใหม่หรือภาคตัดขวาง

  • ขนาดชุดข้อมูล : 3.46 GiB

  • แยก :

แยก ตัวอย่าง
'test' 6,911
'train' 124,397
'validation' 6,911