gros_brevet

  • Description:

BIGPATENT, composé de 1,3 million d'enregistrements de documents de brevets américains ainsi que de résumés abstraits écrits par des humains. Chaque demande de brevet américain est déposée sous un code de classification coopérative des brevets (CPC). Il existe neuf catégories de classification : A (besoins humains), B (exécution d'opérations ; transport), C (chimie ; métallurgie), D (textile ; papier), E (constructions fixes), F (génie mécanique ; foudre ; chauffage ; Armes ; dynamitage), G (physique), H (électricité) et Y (marquage général de technologies nouvelles ou transversales)

Il y a deux caractéristiques : - description : description détaillée du brevet. - résumé : Brevet abrégé.

FeaturesDict({
    'abstract': Text(shape=(), dtype=tf.string),
    'description': Text(shape=(), dtype=tf.string),
})
@misc{sharma2019bigpatent,
    title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
    author={Eva Sharma and Chen Li and Lu Wang},
    year={2019},
    eprint={1906.03741},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

big_patent/all (configuration par défaut)

  • Description Config: les brevets sous toutes les catégories.

  • Taille Dataset: 35.17 GiB

  • scissions:

Diviser Exemples
'test' 67 072
'train' 1 207 222
'validation' 67 068

grand_brevet/a

  • Description config: Brevets sous classification coopérative des brevets (CPC) a: Necessities humaines

  • Taille Dataset: 5.16 GiB

  • scissions:

Diviser Exemples
'test' 9 675
'train' 174 134
'validation' 9 674

grand_brevet/b

  • Description config: Brevets sous classification coopérative des brevets (CPC) b: Exécution d' opérations; Transport

  • Taille Dataset: 4.06 GiB

  • scissions:

Diviser Exemples
'test' 8 974
'train' 161 520
'validation' 8 973

grand_brevet/c

  • Description Config: Brevets dans le cadre Cooperative Classification des brevets (CPC) c: Chimie; Métallurgie

  • Taille Dataset: 3.63 GiB

  • scissions:

Diviser Exemples
'test' 5 614
'train' 101 042
'validation' 5 613

grand_brevet/d

  • Description Config: Brevets dans le cadre Cooperative Classification des brevets (CPC) d: Textiles; Papier

  • Dataset Taille: 255.56 MiB

  • scissions:

Diviser Exemples
'test' 565
'train' 10 164
'validation' 565

grand_brevet/e

  • Description config: Brevets sous Coopératif Classification des brevets (CPC) e: Constructions fixes

  • Dataset Taille: 871.40 MiB

  • scissions:

Diviser Exemples
'test' 1 914
'train' 34 443
'validation' 1 914

grand_brevet/f

  • Description Config: Brevets dans le cadre Cooperative Classification des brevets (CPC) f: Construction mécanique; Éclair; Chauffage; Armes; Dynamitage

  • Taille Dataset: 2.06 GiB

  • scissions:

Diviser Exemples
'test' 4 754
'train' 85 568
'validation' 4 754

grand_brevet/g

  • Description config: Brevets sous classification coopérative des brevets (CPC) g: Physique

  • Taille Dataset: 8.19 GiB

  • scissions:

Diviser Exemples
'test' 14 386
'train' 258 935
'validation' 14 385

grand_brevet/h

  • Description config: Brevets sous classification coopérative des brevets (CPC) de h: Electricité

  • Taille Dataset: 7.50 GiB

  • scissions:

Diviser Exemples
'test' 14 279
'train' 257.019
'validation' 14 279

grand_brevet/a

  • Description Config: Brevets dans le cadre Cooperative Classification des brevets (CPC) de y: marquage général de technologies nouvelles ou en coupe transversale

  • Taille Dataset: 3.46 GiB

  • scissions:

Diviser Exemples
'test' 6 911
'train' 124 397
'validation' 6 911