¡El Día de la Comunidad de ML es el 9 de noviembre! Únase a nosotros para recibir actualizaciones de TensorFlow, JAX, y más Más información

genomics_ood

  • Descripción:

La identificación de bacterias basada en secuencias genómicas promete una detección temprana de enfermedades, pero requiere un modelo que pueda generar predicciones de baja confianza sobre secuencias genómicas fuera de distribución (OOD) de nuevas bacterias que no estaban presentes en los datos de entrenamiento.

Presentamos un conjunto de datos genómicos para la detección de OOD que permite a otros investigadores comparar el progreso en este importante problema. Con el paso de los años se descubren gradualmente nuevas clases de bacterias. Agrupar clases por años es una forma natural de imitar los ejemplos de distribución y OOD.

El conjunto de datos contiene secuencias genómicas extraídas de 10 clases de bacterias que se descubrieron antes del año 2011 como clases de distribución, 60 clases de bacterias descubiertas entre 2011-2016 como OOD para validación y otras 60 clases de bacterias diferentes descubiertas después de 2016 como OOD para prueba. en total 130 clases de bacterias. Tenga en cuenta que los datos de entrenamiento, validación y prueba se proporcionan para las clases en distribución, y los datos de validación y prueba se proporcionan para las clases OOD. Por su naturaleza, los datos de OOD no están disponibles en el momento del entrenamiento.

La secuencia genómica es de 250 de largo, compuesta por caracteres de {A, C, G, T}. El tamaño de la muestra de cada clase es 100.000 en la formación y 10.000 para los conjuntos de validación y prueba.

Para cada ejemplo, las características incluyen: seq: la secuencia de ADN de entrada compuesta por {A, C, G, T}. etiqueta: el nombre de la clase de bacterias. seq_info: la fuente de la secuencia de ADN, es decir, el nombre del genoma, el número de acceso al NCBI y la posición desde donde se tomó la muestra. dominio: si la bacteria está en distribución (en), o OOD (ood)

Los detalles del conjunto de datos se pueden encontrar en el documento complementario.

Separar Ejemplos de
'test' 100.000
'test_ood' 600.000
'train' 1,000,000
'validation' 100.000
'validation_ood' 600.000
  • características:
FeaturesDict({
    'domain': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=130),
    'seq': Text(shape=(), dtype=tf.string),
    'seq_info': Text(shape=(), dtype=tf.string),
})
  • Cita:
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}