duży_patent

  • opis :

BIGPATENT, składający się z 1,3 miliona rekordów dokumentów patentowych USA wraz z abstraktami napisanymi przez ludzi. Każde zgłoszenie patentowe w USA jest składane zgodnie z kodem Cooperative Patent Classification (CPC). Istnieje dziewięć takich kategorii klasyfikacji:

  • A (potrzeby ludzkie),
  • B (Wykonywanie Operacji; Transport),
  • C (chemia; metalurgia),
  • D (tekstylia; papier),
  • E (konstrukcje stałe),
  • F (Inżynieria mechaniczna; Błyskawica; Ogrzewanie; Broń; Wysadzanie),
  • G (Fizyka),
  • H (elektryczność) i
  • Y (ogólne oznaczanie nowej lub przekrojowej technologii)

Istnieją dwie funkcje:

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'description': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
abstrakcyjny Tekst strunowy
opis Tekst strunowy
@misc{sharma2019bigpatent,
    title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
    author={Eva Sharma and Chen Li and Lu Wang},
    year={2019},
    eprint={1906.03741},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

big_patent/all (domyślna konfiguracja)

  • Opis konfiguracji : Patenty we wszystkich kategoriach.

  • Rozmiar zestawu danych : 35.17 GiB

  • Podziały :

Podział Przykłady
'test' 67072
'train' 1 207 222
'validation' 67068

duży_patent/a

  • Opis konfiguracji : Patenty w ramach spółdzielczej klasyfikacji patentowej (CPC)a: Ludzkie potrzeby

  • Rozmiar zestawu danych : 5.16 GiB

  • Podziały :

Podział Przykłady
'test' 9675
'train' 174134
'validation' 9674

duży_patent/b

  • Opis konfiguracji : Patenty w ramach spółdzielczej klasyfikacji patentowej (CPC)b: Wykonywanie operacji; Transport

  • Rozmiar zestawu danych : 4.06 GiB

  • Podziały :

Podział Przykłady
'test' 8974
'train' 161520
'validation' 8973

duży_patent/c

  • Opis konfiguracji : Patenty w ramach spółdzielczej klasyfikacji patentowej (CPC)c: Chemia; Metalurgia

  • Rozmiar zestawu danych : 3.63 GiB

  • Podziały :

Podział Przykłady
'test' 5614
'train' 101042
'validation' 5613

duży_patent/d

  • Opis konfiguracji : Patenty w ramach spółdzielczej klasyfikacji patentowej (CPC)d: Tekstylia; Papier

  • Rozmiar zestawu danych : 255.56 MiB

  • Podziały :

Podział Przykłady
'test' 565
'train' 10164
'validation' 565

duży_patent/e

  • Opis konfiguracji : Patenty w ramach spółdzielczej klasyfikacji patentowej (CPC): Konstrukcje stałe

  • Rozmiar zbioru danych : 871.40 MiB

  • Podziały :

Podział Przykłady
'test' 1914
'train' 34443
'validation' 1914

duży_patent/f

  • Opis konfiguracji : Patenty w ramach spółdzielczej klasyfikacji patentowej (CPC)f: Inżynieria mechaniczna; Błyskawica; Ogrzewanie; Bronie; Strzałowy

  • Rozmiar zestawu danych : 2.06 GiB

  • Podziały :

Podział Przykłady
'test' 4754
'train' 85568
'validation' 4754

duży_patent/g

  • Opis konfiguracji : Patenty w ramach Spółdzielczej Klasyfikacji Patentów (CPC)g: Fizyka

  • Rozmiar zestawu danych : 8.19 GiB

  • Podziały :

Podział Przykłady
'test' 14386
'train' 258 935
'validation' 14385

duży_patent/h

  • Opis konfiguracji : Patenty w ramach spółdzielczej klasyfikacji patentowej (CPC)h: Energia elektryczna

  • Rozmiar zestawu danych : 7.50 GiB

  • Podziały :

Podział Przykłady
'test' 14279
'train' 257 019
'validation' 14279

duży_patent/r

  • Opis konfiguracji : Patenty w ramach spółdzielczej klasyfikacji patentowej (CPC)y: Ogólne oznaczanie nowej lub przekrojowej technologii

  • Rozmiar zestawu danych : 3.46 GiB

  • Podziały :

Podział Przykłady
'test' 6911
'train' 124397
'validation' 6911