c4_wsrs

  • Descrição :

Um conjunto de dados de expansão de abreviação médica que aplica substituição reversa em escala da web (wsrs) ao conjunto de dados C4, que é uma versão colossal e limpa do corpus de rastreamento da web do Common Crawl.

A fonte original é o conjunto de dados Common Crawl: https://commoncrawl.org

Dividir Exemplos
'train' 9.575.852
'validation' 991.422
  • Estrutura de recursos :
FeaturesDict({
    'abbreviated_snippet': Text(shape=(), dtype=string),
    'original_snippet': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Funcionalidade Aula Forma Tipo D Descrição
RecursosDict
trecho_abreviado Texto fragmento
fragmento_original Texto fragmento
  • Citação :

c4_wsrs/default (configuração padrão)