genómica_ood

  • Descripción :

La identificación de bacterias basada en secuencias genómicas promete la detección temprana de enfermedades, pero requiere un modelo que pueda generar predicciones de baja confianza sobre secuencias genómicas fuera de distribución (OOD) de nuevas bacterias que no estaban presentes en los datos de entrenamiento.

Presentamos un conjunto de datos genómicos para la detección de OOD que permite a otros investigadores comparar el progreso en este importante problema. A lo largo de los años se descubren gradualmente nuevas clases de bacterias. Agrupar clases por años es una forma natural de imitar los ejemplos de distribución y OOD.

El conjunto de datos contiene secuencias genómicas muestreadas de 10 clases de bacterias que se descubrieron antes del año 2011 como clases en distribución, 60 clases de bacterias descubiertas entre 2011 y 2016 como OOD para validación y otras 60 clases de bacterias diferentes descubiertas después de 2016 como OOD para prueba. en total 130 clases de bacterias. Tenga en cuenta que se proporcionan datos de capacitación, validación y prueba para las clases en distribución, y datos de validación y prueba para las clases OOD. Por su naturaleza, los datos OOD no están disponibles en el momento del entrenamiento.

La secuencia genómica tiene una longitud de 250, compuesta por caracteres de {A, C, G, T}. El tamaño de la muestra de cada clase es de 100.000 en el entrenamiento y 10.000 para los conjuntos de validación y prueba.

Para cada ejemplo, las características incluyen: seq: la secuencia de ADN de entrada compuesta por {A, C, G, T}. etiqueta: el nombre de la clase de bacteria. seq_info: la fuente de la secuencia de ADN, es decir, el nombre del genoma, el número de acceso de NCBI y la posición de donde se tomó la muestra. dominio: si la bacteria está en distribución (in), o OOD (ood)

Los detalles del conjunto de datos se pueden encontrar en el artículo complementario.

Separar Ejemplos
'test' 100,000
'test_ood' 600.000
'train' 1,000,000
'validation' 100,000
'validation_ood' 600.000
  • Estructura de características :
FeaturesDict({
    'domain': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
    'seq': Text(shape=(), dtype=string),
    'seq_info': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
dominio Texto cuerda
etiqueta Etiqueta de clase int64
secuencia Texto cuerda
seq_info Texto cuerda
  • Cita :
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}