genomics_ood

  • Descrição :

A identificação de bactérias com base em sequências genômicas promete a detecção precoce de doenças, mas requer um modelo que possa gerar previsões de baixa confiança em sequências genômicas fora de distribuição (OOD) de novas bactérias que não estavam presentes nos dados de treinamento.

Apresentamos um conjunto de dados genômicos para detecção de OOD que permite a outros pesquisadores comparar o progresso desse importante problema. Novas classes bacterianas são gradualmente descobertas ao longo dos anos. Agrupar classes por anos é uma maneira natural de imitar os exemplos de distribuição e OOD.

O conjunto de dados contém sequências genômicas amostradas de 10 classes de bactérias que foram descobertas antes do ano de 2011 como classes de distribuição, 60 classes de bactérias descobertas entre 2011-2016 como OOD para validação e outras 60 classes diferentes de bactérias descobertas após 2016 como OOD para teste, no total 130 classes de bactérias. Observe que os dados de treinamento, validação e teste são fornecidos para as classes em distribuição, e os dados de validação e teste são fornecidos para as classes OOD. Por sua natureza, os dados OOD não estão disponíveis no momento do treinamento.

A sequência genômica tem 250 de comprimento, composta por caracteres de {A, C, G, T}. O tamanho da amostra de cada classe é 100.000 no treinamento e 10.000 para os conjuntos de validação e teste.

Para cada exemplo, os recursos incluem: seq: a sequência de DNA de entrada composta por {A, C, G, T}. label: o nome da classe de bactérias. seq_info: a fonte da sequência de DNA, ou seja, o nome do genoma, o número de acesso do NCBI e a posição de onde foi feita a amostragem. domínio: se a bactéria está em distribuição (in) ou OOD (ood)

Os detalhes do conjunto de dados podem ser encontrados no artigo suplementar.

Dividir Exemplos
'test' 100.000
'test_ood' 600.000
'train' 1.000.000
'validation' 100.000
'validation_ood' 600.000
  • Estrutura de recursos :
FeaturesDict({
    'domain': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
    'seq': Text(shape=(), dtype=string),
    'seq_info': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
domínio Texto corda
etiqueta ClassLabel int64
sequência Texto corda
seq_info Texto corda
  • Citação :
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}