c4_wsrs

  • Descripción :

Un conjunto de datos de expansión de abreviaturas médicas que aplica sustitución inversa a escala web (wsrs) al conjunto de datos C4, que es una versión colosal y limpia del corpus de rastreo web de Common Crawl.

La fuente original es el conjunto de datos Common Crawl: https://commoncrawl.org

Separar Ejemplos
'train' 9,575,852
'validation' 991,422
  • Estructura de características :
FeaturesDict({
    'abbreviated_snippet': Text(shape=(), dtype=string),
    'original_snippet': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
fragmento_abreviado Texto cadena
fragmento_original Texto cadena
  • Cita :

c4_wsrs/default (configuración predeterminada)