Sintonize-se com as primeiras mulheres em ML Simpósio esta terça-feira 19 out às 9h PST Register now

genomics_ood

  • Descrição:

A identificação de bactérias com base em sequências genômicas mantém a promessa de detecção precoce de doenças, mas requer um modelo que possa produzir previsões de baixa confiança em sequências genômicas fora de distribuição (OOD) de novas bactérias que não estavam presentes nos dados de treinamento.

Apresentamos um conjunto de dados genômicos para detecção de OOD que permite que outros pesquisadores avaliem o progresso neste importante problema. Novas classes de bactérias são descobertas gradualmente ao longo dos anos. O agrupamento de classes por anos é uma maneira natural de imitar os exemplos de distribuição interna e OOD.

O conjunto de dados contém sequências genômicas amostradas de 10 classes de bactérias que foram descobertas antes do ano de 2011 como classes em distribuição, 60 classes de bactérias descobertas entre 2011-2016 como OOD para validação e outras 60 classes de bactérias diferentes descobertas após 2016 como OOD para teste, em um total de 130 classes de bactérias. Observe que os dados de treinamento, validação e teste são fornecidos para as classes em distribuição e os dados de validação e teste são fornecidos para as classes OOD. Por sua natureza, os dados OOD não estão disponíveis no momento do treinamento.

A sequência genômica é 250 de comprimento, composta por caracteres de {A, C, G, T}. O tamanho da amostra de cada classe é de 100.000 no treinamento e 10.000 para os conjuntos de validação e teste.

Para cada exemplo, os recursos incluem: seq: a sequência de DNA de entrada composta por {A, C, G, T}. rótulo: o nome da classe de bactérias. seq_info: a fonte da sequência de DNA, ou seja, o nome do genoma, o número de acesso do NCBI e a posição de onde foi amostrada. domínio: se a bactéria está em distribuição (em), ou OOD (ood)

Os detalhes do conjunto de dados podem ser encontrados no suplemento do artigo.

Dividir Exemplos
'test' 100.000
'test_ood' 600.000
'train' 1.000.000
'validation' 100.000
'validation_ood' 600.000
  • Características:
FeaturesDict({
    'domain': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=130),
    'seq': Text(shape=(), dtype=tf.string),
    'seq_info': Text(shape=(), dtype=tf.string),
})
  • citação:
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}