grand_brevet

  • Descriptif :

BIGPATENT, composé de 1,3 million d'enregistrements de documents de brevets américains ainsi que de résumés abstraits écrits par des humains. Chaque demande de brevet américain est déposée sous un code de classification coopérative des brevets (CPC). Il existe neuf catégories de classification de ce type :

  • A (nécessités humaines),
  • B (Exécution d'opérations ; Transport),
  • C (Chimie; Métallurgie),
  • D (Textile; Papier),
  • E (Constructions Fixes),
  • F (Génie Mécanique ; Foudre ; Chauffage ; Armes ; Dynamitage),
  • G (Physique),
  • H (Électricité), et
  • Y (marquage général des technologies nouvelles ou transversales)

Il existe deux fonctionnalités :

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'description': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
FonctionnalitésDict
abstrait Texte chaîne
description Texte chaîne
@misc{sharma2019bigpatent,
    title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
    author={Eva Sharma and Chen Li and Lu Wang},
    year={2019},
    eprint={1906.03741},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

big_patent/all (configuration par défaut)

  • Description de la configuration : Brevets sous toutes les catégories.

  • Taille du jeu de données : 35.17 GiB

  • Fractionnements :

Diviser Exemples
'test' 67 072
'train' 1 207 222
'validation' 67 068

big_patent/a

  • Description de la configuration : Brevets sous classification coopérative des brevets (CPC)a : nécessités humaines

  • Taille du jeu de données : 5.16 GiB

  • Fractionnements :

Diviser Exemples
'test' 9 675
'train' 174 134
'validation' 9 674

big_patent/b

  • Description de la configuration : Brevets relevant de la classification coopérative des brevets (CPC)b : exécution d'opérations ; Transport

  • Taille du jeu de données : 4.06 GiB

  • Fractionnements :

Diviser Exemples
'test' 8 974
'train' 161 520
'validation' 8 973

big_patent/c

  • Description de la configuration : Brevets sous classification coopérative des brevets (CPC)c : chimie ; Métallurgie

  • Taille du jeu de données : 3.63 GiB

  • Fractionnements :

Diviser Exemples
'test' 5 614
'train' 101 042
'validation' 5 613

big_patent/d

  • Description de la configuration : Brevets relevant de la classification coopérative des brevets (CPC)d : textiles ; Papier

  • Taille du jeu de données : 255.56 MiB

  • Fractionnements :

Diviser Exemples
'test' 565
'train' 10 164
'validation' 565

big_patent/e

  • Description de la configuration : Brevets sous Classification Coopérative des Brevets (CPC)e : Constructions Fixes

  • Taille du jeu de données : 871.40 MiB

  • Fractionnements :

Diviser Exemples
'test' 1 914
'train' 34 443
'validation' 1 914

big_patent/f

  • Description de la configuration : Brevets relevant de la Classification coopérative des brevets (CPC)f : Génie mécanique ; Foudre; Chauffage; Armes; Dynamitage

  • Taille du jeu de données : 2.06 GiB

  • Fractionnements :

Diviser Exemples
'test' 4 754
'train' 85 568
'validation' 4 754

big_patent/g

  • Description de la configuration : Brevets sous classification coopérative des brevets (CPC) g : physique

  • Taille du jeu de données : 8.19 GiB

  • Fractionnements :

Diviser Exemples
'test' 14 386
'train' 258 935
'validation' 14 385

big_patent/h

  • Description de la configuration : Brevets sous Classification Coopérative des Brevets (CPC)h : Électricité

  • Taille du jeu de données : 7.50 GiB

  • Fractionnements :

Diviser Exemples
'test' 14 279
'train' 257 019
'validation' 14 279

big_patent/y

  • Description de la configuration : Brevets sous classification coopérative des brevets (CPC) y : étiquetage général des technologies nouvelles ou transversales

  • Taille du jeu de données : 3.46 GiB

  • Fractionnements :

Diviser Exemples
'test' 6 911
'train' 124 397
'validation' 6 911