ช่วยปกป้อง Great Barrier Reef กับ TensorFlow บน Kaggle เข้าร่วมท้าทาย

big_patent

  • รายละเอียด:

BIGPATENT ประกอบด้วยเอกสารสิทธิบัตรของสหรัฐอเมริกาจำนวน 1.3 ล้านฉบับพร้อมกับบทสรุปนามธรรมที่เป็นลายลักษณ์อักษรโดยมนุษย์ คำขอรับสิทธิบัตรของสหรัฐฯ แต่ละรายการอยู่ภายใต้รหัสการจำแนกสิทธิบัตรแบบร่วมมือ (CPC) มีเก้าหมวดหมู่การจำแนกประเภทดังกล่าว: A (ความจำเป็นของมนุษย์), B (การปฏิบัติงาน; การขนส่ง), C (เคมี; โลหะวิทยา), D (สิ่งทอ; กระดาษ), E (การก่อสร้างคงที่), F (วิศวกรรมเครื่องกล; ฟ้าผ่า; ความร้อน; อาวุธ; การระเบิด), G (ฟิสิกส์), H (ไฟฟ้า) และ Y (การติดแท็กทั่วไปของเทคโนโลยีใหม่หรือแบบตัดขวาง)

มีสองคุณสมบัติ: - คำอธิบาย: คำอธิบายโดยละเอียดของสิทธิบัตร - สรุป: บทคัดย่อสิทธิบัตร.

  • โฮมเพจ: https://evasharma.github.io/bigpatent/

  • รหัสที่มา: tfds.summarization.BigPatent

  • รุ่น:

    • 1.0.0 : ลดดาดคำ tokenized
    • 2.0.0 : การปรับปรุงการใช้ดาดสตริงดิบ
    • 2.1.2 (เริ่มต้น): การปรับปรุงแก้ไขเพื่อใส่ซองสตริงดิบ
  • ขนาดการดาวน์โหลด: 9.45 GiB

  • ออโต้แคช ( เอกสาร ): ไม่มี

  • คุณสมบัติ:

FeaturesDict({
    'abstract': Text(shape=(), dtype=tf.string),
    'description': Text(shape=(), dtype=tf.string),
})
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('description', 'abstract')

  • รูป ( tfds.show_examples ): ไม่ได้รับการสนับสนุน

  • อ้างอิง:

@misc{sharma2019bigpatent,
    title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
    author={Eva Sharma and Chen Li and Lu Wang},
    year={2019},
    eprint={1906.03741},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

big_patent/all (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย Config: สิทธิบัตรภายใต้ทุกประเภท

  • ขนาดชุด: 35.17 GiB

  • แยก:

แยก ตัวอย่าง
'test' 67,072
'train' 1,207,222
'validation' 67,068

big_patent/a

  • คำอธิบาย Config: สิทธิบัตรภายใต้สิทธิบัตรการจำแนกประเภทสหกรณ์ (CPC) A: ความจำเป็นของมนุษย์

  • ขนาดชุด: 5.16 GiB

  • แยก:

แยก ตัวอย่าง
'test' 9,675
'train' 174,134
'validation' 9,674

big_patent/b

  • คำอธิบาย Config: สิทธิบัตรภายใต้สิทธิบัตรการจำแนกประเภทสหกรณ์ (CPC) b: ประสิทธิภาพการดำเนินงาน; ขนส่ง

  • ขนาดชุด: 4.06 GiB

  • แยก:

แยก ตัวอย่าง
'test' 8,974
'train' 161,520
'validation' 8,973

big_patent/c

  • คำอธิบาย Config: สิทธิบัตรภายใต้สิทธิบัตรการจำแนกประเภทสหกรณ์ (CPC) C: เคมี; โลหะวิทยา

  • ขนาดชุด: 3.63 GiB

  • แยก:

แยก ตัวอย่าง
'test' 5,614
'train' 101,042
'validation' 5,613

big_patent/d

  • คำอธิบาย Config: สิทธิบัตรภายใต้สิทธิบัตรการจำแนกประเภทสหกรณ์ (CPC) d: สิ่งทอ; กระดาษ

  • ขนาดชุด: 255.56 MiB

  • แยก:

แยก ตัวอย่าง
'test' 565
'train' 10,164
'validation' 565

big_patent/e

  • คำอธิบาย Config: สิทธิบัตรภายใต้สิทธิบัตรการจำแนกประเภทสหกรณ์ (CPC) E: แก้ไขก่อสร้าง

  • ขนาดชุด: 871.40 MiB

  • แยก:

แยก ตัวอย่าง
'test' 1,914
'train' 34,443
'validation' 1,914

big_patent/f

  • คำอธิบาย Config: สิทธิบัตรภายใต้สิทธิบัตรการจำแนกประเภทสหกรณ์ (CPC) f: วิศวกรรมเครื่องกล; ฟ้าผ่า; เครื่องทำความร้อน; อาวุธ; ระเบิด

  • ขนาดชุด: 2.06 GiB

  • แยก:

แยก ตัวอย่าง
'test' 4,754
'train' 85,568
'validation' 4,754

big_patent/g

  • คำอธิบาย Config: สิทธิบัตรภายใต้สิทธิบัตรการจำแนกประเภทสหกรณ์ (CPC) g: ฟิสิกส์

  • ขนาดชุด: 8.19 GiB

  • แยก:

แยก ตัวอย่าง
'test' 14,386
'train' 258,935
'validation' 14,385

big_patent/h

  • คำอธิบาย Config: สิทธิบัตรภายใต้สิทธิบัตรการจำแนกประเภทสหกรณ์ (CPC) H: ไฟฟ้า

  • ขนาดชุด: 7.50 GiB

  • แยก:

แยก ตัวอย่าง
'test' 14,279
'train' 257,019
'validation' 14,279

big_patent/y

  • คำอธิบาย Config: สิทธิบัตรภายใต้สิทธิบัตรการจำแนกประเภทสหกรณ์ (CPC) Y: ติดแท็กทั่วไปของเทคโนโลยีใหม่หรือตัดขวาง

  • ขนาดชุด: 3.46 GiB

  • แยก:

แยก ตัวอย่าง
'test' 6,911
'train' 124,397
'validation' 6,911