Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

duży_patent

  • opis:

BIGPATENT, składający się z 1,3 miliona rekordów amerykańskich dokumentów patentowych wraz z pisemnymi streszczeniemi pisanymi przez ludzi. Każde zgłoszenie patentowe w USA jest składane pod kodem CPC (Cooperative Patent Classification). Istnieje dziewięć takich kategorii klasyfikacji: A (potrzeby dla człowieka), B (wykonywanie operacji; transport), C (chemia; metalurgia), D (tekstylia; papier), E (konstrukcje stałe), F (inżynieria mechaniczna; błyskawica; ogrzewanie); Broń; wybuchy), G (fizyka), H (elektryczność) i Y (ogólne znakowanie nowej lub przekrojowej technologii)

Są dwie cechy: - opis: szczegółowy opis patentu. - streszczenie: skrót patentowy.

FeaturesDict({
    'abstract': Text(shape=(), dtype=tf.string),
    'description': Text(shape=(), dtype=tf.string),
})
@misc{sharma2019bigpatent,
    title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
    author={Eva Sharma and Chen Li and Lu Wang},
    year={2019},
    eprint={1906.03741},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

big_patent/all (konfiguracja domyślna)

  • Opis konfiguracji: Patenty wszystkich kategorii.

  • Zbiór danych rozmiar: 35.17 GiB

  • dzieli:

Podział Przykłady
'test' 67 072
'train' 1 207 222
'validation' 67.068

duży_patent/a

  • Opis konfiguracji: Patenty pod Cooperative klasyfikacji patentowej (CPC) a: człowieka Necessities

  • Zestaw danych rozmiar: 5.16 GiB

  • dzieli:

Podział Przykłady
'test' 9675
'train' 174,134
'validation' 9674

duży_patent/b

  • Opis konfiguracji: Patenty pod Cooperative klasyfikacji patentowej (CPC) B: wykonywanie operacji; Transport

  • Zbiór danych rozmiar: 4.06 GiB

  • dzieli:

Podział Przykłady
'test' 8974
'train' 161 520
'validation' 8973

duży_patent/c

  • Opis konfiguracji: Patenty pod Cooperative klasyfikacji patentowej (CPC) C: Chemistry; Metalurgia

  • Zbiór danych rozmiar: 3.63 GiB

  • dzieli:

Podział Przykłady
'test' 5614
'train' 101.042
'validation' 5613

duży_patent/d

  • Opis konfiguracji: Patenty pod Cooperative klasyfikacji patentowej (CPC) d: tekstyliów; Papier

  • Zbiór danych rozmiar: 255.56 MiB

  • dzieli:

Podział Przykłady
'test' 565
'train' 10164
'validation' 565

duży_patent/e

  • Opis konfiguracji: Patenty pod Cooperative klasyfikacji patentowej (CPC) E: Konstrukcje stałe

  • Zbiór danych rozmiar: 871.40 MiB

  • dzieli:

Podział Przykłady
'test' 1914
'train' 34 443
'validation' 1914

duży_patent/f

  • Opis konfiguracji: Patenty pod Cooperative klasyfikacji patentowej (CPC) F: Konstrukcja mechaniczna; Błyskawica; Ogrzewanie; Bronie; Strzałowy

  • Zestaw danych rozmiar: 2.06 GiB

  • dzieli:

Podział Przykłady
'test' 4754
'train' 85 568
'validation' 4754

duży_patent/g

  • Opis konfiguracji: Patenty pod Cooperative klasyfikacji patentowej (CPC) g: Physics

  • Zbiór danych rozmiar: 8.19 GiB

  • dzieli:

Podział Przykłady
'test' 14 386
'train' 258 935
'validation' 14 385

duży_patent/h

  • Opis konfiguracji: Patenty pod Cooperative klasyfikacji patentowej (CPC) H: Prąd

  • Zbiór danych rozmiar: 7.50 GiB

  • dzieli:

Podział Przykłady
'test' 14 279
'train' 257.019
'validation' 14 279

duży_patent/y

  • Opis konfiguracji: Patenty pod Cooperative klasyfikacji patentowej (CPC) Y: Ogólne znakowanie nowych lub przekroju technologii

  • Zbiór danych rozmiar: 3.46 GiB

  • dzieli:

Podział Przykłady
'test' 6911
'train' 124 397
'validation' 6911