genomica_ood

  • Descrizione :

L'identificazione dei batteri basata su sequenze genomiche mantiene la promessa di una diagnosi precoce delle malattie, ma richiede un modello in grado di produrre previsioni a bassa confidenza su sequenze genomiche fuori distribuzione (OOD) da nuovi batteri che non erano presenti nei dati di addestramento.

Introduciamo un set di dati di genomica per il rilevamento di OOD che consente ad altri ricercatori di confrontare i progressi su questo importante problema. Nuove classi batteriche vengono gradualmente scoperte nel corso degli anni. Raggruppare le classi per anni è un modo naturale per imitare gli esempi in-distribution e OOD.

Il set di dati contiene sequenze genomiche campionate da 10 classi di batteri scoperte prima del 2011 come classi in distribuzione, 60 classi di batteri scoperte tra il 2011-2016 come OOD per la convalida e altre 60 diverse classi di batteri scoperte dopo il 2016 come OOD per il test, in totale 130 classi di batteri. Si noti che i dati di addestramento, convalida e test vengono forniti per le classi in distribuzione e i dati di convalida e test vengono forniti per le classi OOD. Per sua natura, i dati OOD non sono disponibili al momento dell'addestramento.

La sequenza genomica è lunga 250, composta dai caratteri di {A, C, G, T}. La dimensione del campione di ogni classe è 100.000 nella formazione e 10.000 per i set di convalida e test.

Per ogni esempio, le caratteristiche includono: seq: la sequenza del DNA di input composta da {A, C, G, T}. etichetta: il nome della classe di batteri. seq_info: la fonte della sequenza del DNA, cioè il nome del genoma, il numero di accesso all'NCBI e la posizione da cui è stato campionato. dominio: se il batterio è in distribuzione (in), o OOD (ood)

I dettagli del set di dati sono disponibili nel documento supplementare.

Diviso Esempi
'test' 100.000
'test_ood' 600.000
'train' 1.000.000
'validation' 100.000
'validation_ood' 600.000
  • Struttura delle caratteristiche :
FeaturesDict({
    'domain': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
    'seq': Text(shape=(), dtype=string),
    'seq_info': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
dominio Testo corda
etichetta ClassLabel int64
seg Testo corda
seq_info Testo corda
  • Citazione :
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}