genomics_ood

Descrição :

A identificação de bactérias com base em sequências genômicas promete a detecção precoce de doenças, mas requer um modelo que possa gerar previsões de baixa confiança em sequências genômicas fora de distribuição (OOD) de novas bactérias que não estavam presentes nos dados de treinamento.

Apresentamos um conjunto de dados genômicos para detecção de OOD que permite a outros pesquisadores comparar o progresso desse importante problema. Novas classes bacterianas são gradualmente descobertas ao longo dos anos. Agrupar classes por anos é uma maneira natural de imitar os exemplos de distribuição e OOD.

O conjunto de dados contém sequências genômicas amostradas de 10 classes de bactérias que foram descobertas antes do ano de 2011 como classes de distribuição, 60 classes de bactérias descobertas entre 2011-2016 como OOD para validação e outras 60 classes diferentes de bactérias descobertas após 2016 como OOD para teste, no total 130 classes de bactérias. Observe que os dados de treinamento, validação e teste são fornecidos para as classes em distribuição, e os dados de validação e teste são fornecidos para as classes OOD. Por sua natureza, os dados OOD não estão disponíveis no momento do treinamento.

A sequência genômica tem 250 de comprimento, composta por caracteres de {A, C, G, T}. O tamanho da amostra de cada classe é 100.000 no treinamento e 10.000 para os conjuntos de validação e teste.

Para cada exemplo, os recursos incluem: seq: a sequência de DNA de entrada composta por {A, C, G, T}. label: o nome da classe de bactérias. seq_info: a fonte da sequência de DNA, ou seja, o nome do genoma, o número de acesso do NCBI e a posição de onde foi feita a amostragem. domínio: se a bactéria está em distribuição (in) ou OOD (ood)

Os detalhes do conjunto de dados podem ser encontrados no artigo suplementar.

Documentação Adicional : Explore em Papers With Code
Página inicial : https://github.com/google-research/google-research/tree/master/genomics_ood
Código -fonte: tfds.structured.GenomicsOod
Versões :
- 0.0.1 (padrão): sem notas de versão.
Tamanho do download : Unknown size
Tamanho do conjunto de dados : 926.87 MiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :

Dividir	Exemplos
`'test'`	100.000
`'test_ood'`	600.000
`'train'`	1.000.000
`'validation'`	100.000
`'validation_ood'`	600.000

Estrutura de recursos :

FeaturesDict({
    'domain': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
    'seq': Text(shape=(), dtype=string),
    'seq_info': Text(shape=(), dtype=string),
})

Documentação do recurso:

Característica	Classe	Tipo D
	RecursosDict
domínio	Texto	corda
etiqueta	ClassLabel	int64
sequência	Texto	corda
seq_info	Texto	corda

Chaves supervisionadas (Consulte as_supervised doc ): ('seq', 'label')
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ):

Citação :

@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}

genomics_ood Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

genomics_ood