gran_patente

  • Descripción :

BIGPATENT, que consta de 1,3 millones de registros de documentos de patentes estadounidenses junto con resúmenes abstractos escritos por humanos. Cada solicitud de patente estadounidense se presenta bajo un código de Clasificación Cooperativa de Patentes (CPC). Hay nueve categorías de clasificación de este tipo: A (Necesidades humanas), B (Operaciones realizadas, Transporte), C (Química, Metalurgia), D (Textiles, Papel), E (Construcciones fijas), F (Ingeniería mecánica, Iluminación, Calefacción; Armas; Voladura), G (Física), H (Electricidad) e Y (Etiquetado general de tecnología nueva o transversal)

Hay dos características: - descripción: descripción detallada de la patente. - resumen: resumen de patente.

  • Página de inicio: https://evasharma.github.io/bigpatent/

  • Código fuente : tfds.summarization.BigPatent

  • Versiones :

    • 1.0.0 : palabras tokenizadas en minúsculas
    • 2.0.0 : Actualización para usar cadenas sin procesar en mayúsculas y minúsculas
    • 2.1.2 (predeterminado): corrige la actualización de las cadenas sin procesar en mayúsculas y minúsculas.
  • Tamaño de descarga : 9.45 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Estructura de características :

FeaturesDict({
    'abstract': Text(shape=(), dtype=tf.string),
    'description': Text(shape=(), dtype=tf.string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
resumen Texto tf.cadena
descripción Texto tf.cadena
@misc{sharma2019bigpatent,
    title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
    author={Eva Sharma and Chen Li and Lu Wang},
    year={2019},
    eprint={1906.03741},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

big_patent/all (configuración predeterminada)

  • Descripción de la configuración : Patentes en todas las categorías.

  • Tamaño del conjunto de datos : 35.17 GiB

  • Divisiones :

Separar Ejemplos
'test' 67,072
'train' 1,207,222
'validation' 67,068

gran_patente/a

  • Descripción de la configuración : Patentes según la Clasificación cooperativa de patentes (CPC)a: Necesidades humanas

  • Tamaño del conjunto de datos : 5.16 GiB

  • Divisiones :

Separar Ejemplos
'test' 9,675
'train' 174,134
'validation' 9,674

patente_grande/b

  • Descripción de la configuración : Patentes bajo la Clasificación Cooperativa de Patentes (CPC)b: Realización de Operaciones; Transporte

  • Tamaño del conjunto de datos : 4.06 GiB

  • Divisiones :

Separar Ejemplos
'test' 8,974
'train' 161,520
'validation' 8,973

gran_patente/c

  • Descripción de la configuración : Patentes bajo Clasificación Cooperativa de Patentes (CPC)c: Química; Metalurgia

  • Tamaño del conjunto de datos : 3.63 GiB

  • Divisiones :

Separar Ejemplos
'test' 5,614
'train' 101,042
'validation' 5,613

patente_grande/d

  • Descripción de la configuración : Patentes bajo Clasificación Cooperativa de Patentes (CPC)d: Textiles; Papel

  • Tamaño del conjunto de datos : 255.56 MiB

  • Divisiones :

Separar Ejemplos
'test' 565
'train' 10,164
'validation' 565

gran_patente/e

  • Descripción de la configuración : Patentes bajo la Clasificación Cooperativa de Patentes (CPC)e: Construcciones Fijas

  • Tamaño del conjunto de datos : 871.40 MiB

  • Divisiones :

Separar Ejemplos
'test' 1,914
'train' 34,443
'validation' 1,914

gran_patente/f

  • Descripción de la configuración : Patentes bajo Clasificación Cooperativa de Patentes (CPC)f: Ingeniería Mecánica; Relámpago; Calefacción; armas; Voladura

  • Tamaño del conjunto de datos : 2.06 GiB

  • Divisiones :

Separar Ejemplos
'test' 4,754
'train' 85,568
'validation' 4,754

gran_patente/g

  • Descripción de la configuración : Patentes bajo Clasificación Cooperativa de Patentes (CPC)g: Física

  • Tamaño del conjunto de datos : 8.19 GiB

  • Divisiones :

Separar Ejemplos
'test' 14,386
'train' 258,935
'validation' 14,385

gran_patente/h

  • Descripción de la configuración : Patentes bajo la Clasificación Cooperativa de Patentes (CPC)h: Electricidad

  • Tamaño del conjunto de datos : 7.50 GiB

  • Divisiones :

Separar Ejemplos
'test' 14,279
'train' 257,019
'validation' 14,279

gran_patente/año

  • Descripción de configuración : Patentes bajo Clasificación Cooperativa de Patentes (CPC) y: Etiquetado general de tecnología nueva o transversal

  • Tamaño del conjunto de datos : 3.46 GiB

  • Divisiones :

Separar Ejemplos
'test' 6,911
'train' 124,397
'validation' 6,911