Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

genomika_ood

  • opis:

Identyfikacja bakterii oparta na sekwencjach genomowych daje nadzieję na wczesne wykrywanie chorób, ale wymaga modelu, który może generować prognozy o niskim stopniu ufności dotyczące sekwencji genomowych z braku dystrybucji (OOD) z nowych bakterii, których nie było w danych treningowych.

Wprowadzamy zestaw danych genomicznych do wykrywania OOD, który umożliwia innym badaczom porównywanie postępów w tym ważnym problemie. Z biegiem lat stopniowo odkrywane są nowe klasy bakterii. Grupowanie klas według lat to naturalny sposób na naśladowanie przykładów in-distribution i OOD.

Zbiór danych zawiera sekwencje genomowe pobrane z 10 klas bakterii, które zostały odkryte przed rokiem 2011 jako klasy w dystrybucji, 60 klas bakterii odkrytych w latach 2011-2016 jako OOD do walidacji oraz kolejne 60 różnych klas bakterii odkrytych po 2016 jako OOD do testów, łącznie 130 klas bakterii. Należy zwrócić uwagę, że dane szkoleniowe, walidacyjne i testowe są dostarczane dla klas w dystrybucji, a dane walidacyjne i testowe są dostarczane dla klas OOD. Ze swojej natury dane OOD nie są dostępne w czasie szkolenia.

Sekwencja genomowa ma długość 250 i składa się z znaków {A, C, G, T}. Wielkość próby każdej klasy wynosi 100 000 w szkoleniu i 10 000 dla zestawów walidacyjnych i testowych.

Dla każdego przykładu cechy obejmują: seq: wejściowa sekwencja DNA złożona z {A, C, G, T}. etykieta: nazwa klasy bakterii. seq_info: źródło sekwencji DNA, tj. nazwa genomu, numer dostępu NCBI i pozycja, z której została pobrana. domena: jeśli bakteria jest w dystrybucji (in) lub OOD (ood)

Szczegóły zestawu danych można znaleźć w dodatkowym dokumencie.

Podział Przykłady
'test' 100 000
'test_ood' 600 000
'train' 1 000 000
'validation' 100 000
'validation_ood' 600 000
  • Cechy:
FeaturesDict({
    'domain': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=130),
    'seq': Text(shape=(), dtype=tf.string),
    'seq_info': Text(shape=(), dtype=tf.string),
})
  • cytat:
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}