Merci de vous être connecté à Google I/O. Voir toutes les sessions à la demande Regarder à la demande

grand_brevet

  • Descriptif :

BIGPATENT, composé de 1,3 million d'enregistrements de documents de brevets américains ainsi que de résumés abstraits écrits par des humains. Chaque demande de brevet américain est déposée sous un code de classification coopérative des brevets (CPC). Il existe neuf catégories de classification : A (nécessités humaines), B (exécution d'opérations ; transport), C (chimie ; métallurgie), D (textiles ; papier), E (constructions fixes), F (génie mécanique ; foudre ; chauffage ; Armes ; Explosion), G (Physique), H (Électricité) et Y (Étiquetage général des technologies nouvelles ou transversales)

Il existe deux fonctionnalités : - description : description détaillée du brevet. - résumé : Résumé du brevet.

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'description': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
abstrait Texte chaîne de caractères
la description Texte chaîne de caractères
@misc{sharma2019bigpatent,
    title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
    author={Eva Sharma and Chen Li and Lu Wang},
    year={2019},
    eprint={1906.03741},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

big_patent/all (configuration par défaut)

  • Description de la configuration : Brevets sous toutes les catégories.

  • Taille du jeu de données : 35.17 GiB

  • Fractionnements :

Diviser Exemples
'test' 67 072
'train' 1 207 222
'validation' 67 068

big_patent/a

  • Description de la configuration : Brevets sous classification coopérative des brevets (CPC)a : nécessités humaines

  • Taille du jeu de données : 5.16 GiB

  • Fractionnements :

Diviser Exemples
'test' 9 675
'train' 174 134
'validation' 9 674

big_patent/b

  • Description de la configuration : Brevets relevant de la classification coopérative des brevets (CPC)b : exécution d'opérations ; Transport

  • Taille du jeu de données : 4.06 GiB

  • Fractionnements :

Diviser Exemples
'test' 8 974
'train' 161 520
'validation' 8 973

big_patent/c

  • Description de la configuration : Brevets sous classification coopérative des brevets (CPC)c : chimie ; Métallurgie

  • Taille du jeu de données : 3.63 GiB

  • Fractionnements :

Diviser Exemples
'test' 5 614
'train' 101 042
'validation' 5 613

big_patent/d

  • Description de la configuration : Brevets relevant de la classification coopérative des brevets (CPC)d : textiles ; Papier

  • Taille du jeu de données : 255.56 MiB

  • Fractionnements :

Diviser Exemples
'test' 565
'train' 10 164
'validation' 565

big_patent/e

  • Description de la configuration : Brevets sous Classification Coopérative des Brevets (CPC)e : Constructions Fixes

  • Taille du jeu de données : 871.40 MiB

  • Fractionnements :

Diviser Exemples
'test' 1 914
'train' 34 443
'validation' 1 914

big_patent/f

  • Description de la configuration : Brevets relevant de la Classification coopérative des brevets (CPC)f : Génie mécanique ; Éclair; Chauffage; Armes; Dynamitage

  • Taille du jeu de données : 2.06 GiB

  • Fractionnements :

Diviser Exemples
'test' 4 754
'train' 85 568
'validation' 4 754

big_patent/g

  • Description de la configuration : Brevets sous classification coopérative des brevets (CPC) g : physique

  • Taille du jeu de données : 8.19 GiB

  • Fractionnements :

Diviser Exemples
'test' 14 386
'train' 258 935
'validation' 14 385

big_patent/h

  • Description de la configuration : Brevets sous Classification Coopérative des Brevets (CPC)h : Électricité

  • Taille du jeu de données : 7.50 GiB

  • Fractionnements :

Diviser Exemples
'test' 14 279
'train' 257 019
'validation' 14 279

big_patent/y

  • Description de la configuration : Brevets sous classification coopérative des brevets (CPC) y : étiquetage général des technologies nouvelles ou transversales

  • Taille du jeu de données : 3.46 GiB

  • Fractionnements :

Diviser Exemples
'test' 6 911
'train' 124 397
'validation' 6 911