ช่วยปกป้อง Great Barrier Reef กับ TensorFlow บน Kaggle เข้าร่วมท้าทาย

big_patent

 • รายละเอียด:

BIGPATENT ประกอบด้วยเอกสารสิทธิบัตรของสหรัฐอเมริกาจำนวน 1.3 ล้านฉบับพร้อมกับบทสรุปนามธรรมที่เป็นลายลักษณ์อักษรโดยมนุษย์ คำขอรับสิทธิบัตรของสหรัฐฯ แต่ละรายการอยู่ภายใต้รหัสการจำแนกสิทธิบัตรแบบร่วมมือ (CPC) มีเก้าหมวดหมู่การจำแนกประเภทดังกล่าว: A (ความจำเป็นของมนุษย์), B (การปฏิบัติงาน; การขนส่ง), C (เคมี; โลหะวิทยา), D (สิ่งทอ; กระดาษ), E (การก่อสร้างคงที่), F (วิศวกรรมเครื่องกล; ฟ้าผ่า; ความร้อน; อาวุธ; การระเบิด), G (ฟิสิกส์), H (ไฟฟ้า) และ Y (การติดแท็กทั่วไปของเทคโนโลยีใหม่หรือแบบตัดขวาง)

มีสองคุณสมบัติ: - คำอธิบาย: คำอธิบายโดยละเอียดของสิทธิบัตร - สรุป: บทคัดย่อสิทธิบัตร.

 • โฮมเพจ: https://evasharma.github.io/bigpatent/

 • รหัสที่มา: tfds.summarization.BigPatent

 • รุ่น:

  • 1.0.0 : ลดดาดคำ tokenized
  • 2.0.0 : การปรับปรุงการใช้ดาดสตริงดิบ
  • 2.1.2 (เริ่มต้น): การปรับปรุงแก้ไขเพื่อใส่ซองสตริงดิบ
 • ขนาดการดาวน์โหลด: 9.45 GiB

 • ออโต้แคช ( เอกสาร ): ไม่มี

 • คุณสมบัติ:

FeaturesDict({
  'abstract': Text(shape=(), dtype=tf.string),
  'description': Text(shape=(), dtype=tf.string),
})
 • คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('description', 'abstract')

 • รูป ( tfds.show_examples ): ไม่ได้รับการสนับสนุน

 • อ้างอิง:

@misc{sharma2019bigpatent,
  title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
  author={Eva Sharma and Chen Li and Lu Wang},
  year={2019},
  eprint={1906.03741},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}

big_patent/all (การกำหนดค่าเริ่มต้น)

 • คำอธิบาย Config: สิทธิบัตรภายใต้ทุกประเภท

 • ขนาดชุด: 35.17 GiB

 • แยก:

แยก ตัวอย่าง
'test' 67,072
'train' 1,207,222
'validation' 67,068

big_patent/a

 • คำอธิบาย Config: สิทธิบัตรภายใต้สิทธิบัตรการจำแนกประเภทสหกรณ์ (CPC) A: ความจำเป็นของมนุษย์

 • ขนาดชุด: 5.16 GiB

 • แยก:

แยก ตัวอย่าง
'test' 9,675
'train' 174,134
'validation' 9,674

big_patent/b

 • คำอธิบาย Config: สิทธิบัตรภายใต้สิทธิบัตรการจำแนกประเภทสหกรณ์ (CPC) b: ประสิทธิภาพการดำเนินงาน; ขนส่ง

 • ขนาดชุด: 4.06 GiB

 • แยก:

แยก ตัวอย่าง
'test' 8,974
'train' 161,520
'validation' 8,973

big_patent/c

 • คำอธิบาย Config: สิทธิบัตรภายใต้สิทธิบัตรการจำแนกประเภทสหกรณ์ (CPC) C: เคมี; โลหะวิทยา

 • ขนาดชุด: 3.63 GiB

 • แยก:

แยก ตัวอย่าง
'test' 5,614
'train' 101,042
'validation' 5,613

big_patent/d

 • คำอธิบาย Config: สิทธิบัตรภายใต้สิทธิบัตรการจำแนกประเภทสหกรณ์ (CPC) d: สิ่งทอ; กระดาษ

 • ขนาดชุด: 255.56 MiB

 • แยก:

แยก ตัวอย่าง
'test' 565
'train' 10,164
'validation' 565

big_patent/e

 • คำอธิบาย Config: สิทธิบัตรภายใต้สิทธิบัตรการจำแนกประเภทสหกรณ์ (CPC) E: แก้ไขก่อสร้าง

 • ขนาดชุด: 871.40 MiB

 • แยก:

แยก ตัวอย่าง
'test' 1,914
'train' 34,443
'validation' 1,914

big_patent/f

 • คำอธิบาย Config: สิทธิบัตรภายใต้สิทธิบัตรการจำแนกประเภทสหกรณ์ (CPC) f: วิศวกรรมเครื่องกล; ฟ้าผ่า; เครื่องทำความร้อน; อาวุธ; ระเบิด

 • ขนาดชุด: 2.06 GiB

 • แยก:

แยก ตัวอย่าง
'test' 4,754
'train' 85,568
'validation' 4,754

big_patent/g

 • คำอธิบาย Config: สิทธิบัตรภายใต้สิทธิบัตรการจำแนกประเภทสหกรณ์ (CPC) g: ฟิสิกส์

 • ขนาดชุด: 8.19 GiB

 • แยก:

แยก ตัวอย่าง
'test' 14,386
'train' 258,935
'validation' 14,385

big_patent/h

 • คำอธิบาย Config: สิทธิบัตรภายใต้สิทธิบัตรการจำแนกประเภทสหกรณ์ (CPC) H: ไฟฟ้า

 • ขนาดชุด: 7.50 GiB

 • แยก:

แยก ตัวอย่าง
'test' 14,279
'train' 257,019
'validation' 14,279

big_patent/y

 • คำอธิบาย Config: สิทธิบัตรภายใต้สิทธิบัตรการจำแนกประเภทสหกรณ์ (CPC) Y: ติดแท็กทั่วไปของเทคโนโลยีใหม่หรือตัดขวาง

 • ขนาดชุด: 3.46 GiB

 • แยก:

แยก ตัวอย่าง
'test' 6,911
'train' 124,397
'validation' 6,911