O Dia da Comunidade de ML é dia 9 de novembro! Junte-nos para atualização de TensorFlow, JAX, e mais Saiba mais

big_patent

  • Descrição:

BIGPATENT, consistindo em 1,3 milhão de registros de documentos de patentes dos EUA junto com resumos abstratos escritos por humanos. Cada pedido de patente dos EUA é depositado sob um código de Classificação de Patente Cooperativa (CPC). Existem nove categorias de classificação: A (Necessidades humanas), B (Operações executivas; Transporte), C (Química; Metalurgia), D (Têxteis; Papel), E (Construções fixas), F (Engenharia mecânica; Iluminação; Aquecimento; Armas; detonação), G (física), H (eletricidade) e Y (marcação geral de tecnologia nova ou transversal)

Existem duas características: - descrição: descrição detalhada da patente. - resumo: resumo da patente.

FeaturesDict({
    'abstract': Text(shape=(), dtype=tf.string),
    'description': Text(shape=(), dtype=tf.string),
})
@misc{sharma2019bigpatent,
    title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
    author={Eva Sharma and Chen Li and Lu Wang},
    year={2019},
    eprint={1906.03741},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

big_patent / all (configuração padrão)

  • A inscrição Config: Patentes sob todas as categorias.

  • Tamanho do conjunto de dados: 35.17 GiB

  • desdobramentos:

Dividir Exemplos
'test' 67.072
'train' 1.207.222
'validation' 67.068

big_patent / a

  • Descrição Config: Patentes sob Cooperativa Patente Classificação (CPC) a: Necessidades Humanas

  • Tamanho do conjunto de dados: 5.16 GiB

  • desdobramentos:

Dividir Exemplos
'test' 9.675
'train' 174.134
'validation' 9.674

big_patent / b

  • Descrição Config: Patentes sob Cooperativa Patente Classificação (CPC) b: Execução de operações; Transportando

  • Tamanho do conjunto de dados: 4.06 GiB

  • desdobramentos:

Dividir Exemplos
'test' 8.974
'train' 161.520
'validation' 8.973

big_patent / c

  • Descrição Config: Patentes sob Cooperativa Patente Classificação (CPC) c: Chemistry; Metalurgia

  • Tamanho do conjunto de dados: 3.63 GiB

  • desdobramentos:

Dividir Exemplos
'test' 5.614
'train' 101.042
'validation' 5.613

big_patent / d

  • Descrição Config: Patentes sob Cooperativa Patente Classificação (CPC) d: Têxtil; Papel

  • Dataset size: 255.56 MiB

  • desdobramentos:

Dividir Exemplos
'test' 565
'train' 10.164
'validation' 565

big_patent / e

  • Descrição Config: Patentes sob Cooperativa Patente Classificação (CPC) e: Fixa Construções

  • Dataset size: 871.40 MiB

  • desdobramentos:

Dividir Exemplos
'test' 1.914
'train' 34.443
'validation' 1.914

big_patent / f

  • Descrição Config: Patentes sob Cooperativa Patente Classificação (CPC) f: Engenharia Mecânica; Raio; Aquecimento; Armas; Detonando

  • Tamanho do conjunto de dados: 2.06 GiB

  • desdobramentos:

Dividir Exemplos
'test' 4.754
'train' 85.568
'validation' 4.754

big_patent / g

  • Descrição Config: Patentes sob Cooperativa Patente Classificação (CPC) g: Física

  • Tamanho do conjunto de dados: 8.19 GiB

  • desdobramentos:

Dividir Exemplos
'test' 14.386
'train' 258.935
'validation' 14.385

big_patent / h

  • Descrição Config: Patentes sob Cooperativa Patente Classificação (CPC) h: Electricidade

  • Tamanho do conjunto de dados: 7.50 GiB

  • desdobramentos:

Dividir Exemplos
'test' 14.279
'train' 257.019
'validation' 14.279

big_patent / y

  • Descrição Config: Patentes sob Cooperativa Patente Classificação (CPC) y: codificação geral de tecnologia nova ou transversal

  • Tamanho do conjunto de dados: 3.46 GiB

  • desdobramentos:

Dividir Exemplos
'test' 6.911
'train' 124.397
'validation' 6.911