big_patent

 • Mô tả :

BIGPATENT, bao gồm 1,3 triệu bản ghi tài liệu bằng sáng chế của Hoa Kỳ cùng với các bản tóm tắt trừu tượng bằng văn bản của con người. Mỗi đơn xin cấp bằng sáng chế của Hoa Kỳ được nộp theo mã Phân loại bằng sáng chế hợp tác xã (CPC). Có chín loại phân loại như vậy:

 • A (Nhu yếu phẩm của con người),
 • B (Thực hiện các hoạt động; Vận chuyển),
 • C (Hóa học; Luyện kim),
 • D (Dệt; Giấy),
 • E (Công trình cố định),
 • F (Kỹ thuật cơ khí; Tia chớp; Hệ thống sưởi; Vũ khí; Nổ mìn),
 • G (Vật lý),
 • H (Điện) và
 • Y (Gắn thẻ chung cho công nghệ mới hoặc cắt ngang)

Có hai tính năng:

FeaturesDict({
  'abstract': Text(shape=(), dtype=string),
  'description': Text(shape=(), dtype=string),
})
 • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Tính năngDict
trừu tượng Chữ sợi dây
Sự miêu tả Chữ sợi dây
@misc{sharma2019bigpatent,
  title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
  author={Eva Sharma and Chen Li and Lu Wang},
  year={2019},
  eprint={1906.03741},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}

big_patent/all (cấu hình mặc định)

 • Mô tả cấu hình : Bằng sáng chế thuộc tất cả các danh mục.

 • Kích thước tập dữ liệu : 35.17 GiB

 • Chia tách :

Tách ra ví dụ
'test' 67,072
'train' 1.207.222
'validation' 67,068

big_patent/a

 • Mô tả cấu hình : Bằng sáng chế theo Phân loại bằng sáng chế hợp tác (CPC)a: Sự cần thiết của con người

 • Kích thước tập dữ liệu : 5.16 GiB

 • Chia tách :

Tách ra ví dụ
'test' 9,675
'train' 174,134
'validation' 9,674

big_patent/b

 • Mô tả cấu hình : Bằng sáng chế theo Phân loại Bằng sáng chế Hợp tác (CPC)b: Thực hiện Hoạt động; vận chuyển

 • Kích thước tập dữ liệu : 4.06 GiB

 • Chia tách :

Tách ra ví dụ
'test' 8,974
'train' 161,520
'validation' 8,973

big_patent/c

 • Mô tả cấu hình : Bằng sáng chế theo Phân loại Bằng sáng chế Hợp tác (CPC)c: Hóa học; luyện kim

 • Kích thước tập dữ liệu : 3.63 GiB

 • Chia tách :

Tách ra ví dụ
'test' 5,614
'train' 101,042
'validation' 5,613

big_patent/d

 • Mô tả cấu hình : Bằng sáng chế theo Phân loại bằng sáng chế hợp tác (CPC)d: Dệt may; Giấy

 • Kích thước tập dữ liệu : 255.56 MiB

 • Chia tách :

Tách ra ví dụ
'test' 565
'train' 10,164
'validation' 565

big_patent/e

 • Mô tả cấu hình : Bằng sáng chế theo Phân loại bằng sáng chế hợp tác (CPC)e: Công trình cố định

 • Kích thước tập dữ liệu : 871.40 MiB

 • Chia tách :

Tách ra ví dụ
'test' 1.914
'train' 34,443
'validation' 1.914

big_patent/f

 • Mô tả cấu hình : Bằng sáng chế theo Phân loại bằng sáng chế hợp tác (CPC)f: Kỹ thuật cơ khí; Tia chớp; Sưởi; Vũ khí; nổ mìn

 • Kích thước tập dữ liệu : 2.06 GiB

 • Chia tách :

Tách ra ví dụ
'test' 4,754
'train' 85,568
'validation' 4,754

big_patent/g

 • Mô tả cấu hình : Bằng sáng chế theo Phân loại bằng sáng chế hợp tác (CPC)g: Vật lý

 • Kích thước tập dữ liệu : 8.19 GiB

 • Chia tách :

Tách ra ví dụ
'test' 14,386
'train' 258,935
'validation' 14.385

big_patent/h

 • Mô tả cấu hình : Bằng sáng chế theo Phân loại bằng sáng chế hợp tác (CPC)h: Điện

 • Kích thước tập dữ liệu : 7.50 GiB

 • Chia tách :

Tách ra ví dụ
'test' 14,279
'train' 257,019
'validation' 14,279

big_patent/y

 • Mô tả cấu hình : Bằng sáng chế theo Phân loại bằng sáng chế hợp tác (CPC)y: Gắn thẻ chung cho công nghệ mới hoặc công nghệ chéo

 • Kích thước tập dữ liệu : 3.46 GiB

 • Chia tách :

Tách ra ví dụ
'test' 6,911
'train' 124,397
'validation' 6,911