genomics_ood

  • Description:

L'identification des bactéries basée sur les séquences génomiques est prometteuse pour la détection précoce des maladies, mais nécessite un modèle capable de générer des prédictions de faible confiance sur les séquences génomiques hors distribution (OOD) de nouvelles bactéries qui n'étaient pas présentes dans les données d'apprentissage.

Nous introduisons un ensemble de données génomiques pour la détection des OOD qui permet à d'autres chercheurs de comparer les progrès réalisés sur ce problème important. De nouvelles classes bactériennes sont progressivement découvertes au fil des années. Regrouper les classes par années est un moyen naturel d'imiter les exemples de distribution et d'OOD.

L'ensemble de données contient des séquences génomiques échantillonnées à partir de 10 classes de bactéries découvertes avant l'année 2011 en tant que classes de distribution, 60 classes de bactéries découvertes entre 2011-2016 en tant qu'OOD pour validation et 60 autres classes de bactéries différentes découvertes après 2016 en tant qu'OOD pour test, au total 130 classes de bactéries. Notez que les données de formation, de validation et de test sont fournies pour les classes en distribution, et que les données de validation et de test sont fournies pour les classes OOD. De par leur nature, les données OOD ne sont pas disponibles au moment de la formation.

La séquence génomique est longue de 250, composée des caractères {A, C, G, T}. La taille de l'échantillon de chaque classe est de 100 000 dans la formation et de 10 000 pour les ensembles de validation et de test.

Pour chaque exemple, les caractéristiques comprennent : seq : la séquence d'ADN d'entrée composée par {A, C, G, T}. label : le nom de la classe de bactéries. seq_info : la source de la séquence d'ADN, c'est-à-dire le nom du génome, le numéro d'accession NCBI et la position d'où elle a été prélevée. domaine : si la bactérie est en distribution (in), ou OOD (ood)

Les détails de l'ensemble de données peuvent être trouvés dans le document supplémentaire.

Diviser Exemples
'test' 100 000
'test_ood' 600 000
'train' 1 000 000
'validation' 100 000
'validation_ood' 600 000
  • Caractéristiques:
FeaturesDict({
    'domain': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=130),
    'seq': Text(shape=(), dtype=tf.string),
    'seq_info': Text(shape=(), dtype=tf.string),
})
  • citation:
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}