Halaman ini diterjemahkan oleh Cloud Translation API.
Switch to English

genomics_ood

  • Deskripsi :

Identifikasi bakteri berdasarkan urutan genom menjanjikan deteksi dini penyakit, tetapi memerlukan model yang dapat menghasilkan prediksi keyakinan rendah tentang urutan genom di luar distribusi (OOD) dari bakteri baru yang tidak ada dalam data pelatihan.

Kami memperkenalkan kumpulan data genomik untuk deteksi OOD yang memungkinkan peneliti lain untuk mengukur kemajuan dalam masalah penting ini. Kelas bakteri baru secara bertahap ditemukan selama bertahun-tahun. Mengelompokkan kelas menurut tahun adalah cara alami untuk meniru contoh dalam distribusi dan OOD.

Dataset berisi urutan genom yang diambil sampelnya dari 10 kelas bakteri yang ditemukan sebelum tahun 2011 sebagai kelas dalam distribusi, 60 kelas bakteri ditemukan antara tahun 2011-2016 sebagai OOD untuk validasi, dan 60 kelas bakteri berbeda yang ditemukan setelah tahun 2016 sebagai OOD untuk pengujian. dalam total 130 kelas bakteri. Perhatikan bahwa data pelatihan, validasi, dan pengujian disediakan untuk kelas dalam distribusi, dan data validasi dan pengujian disediakan untuk kelas OOD. Berdasarkan sifatnya, data OOD tidak tersedia pada waktu pelatihan.

Urutan genom panjangnya 250, disusun oleh karakter {A, C, G, T}. Besar sampel tiap kelas adalah 100.000 pada pelatihan dan 10.000 untuk set validasi dan tes.

Untuk setiap contoh, fiturnya meliputi: seq: urutan DNA input yang disusun oleh {A, C, G, T}. label: nama kelas bakteri. seq_info: sumber urutan DNA, yaitu nama genom, nomor aksesi NCBI, dan posisi pengambilan sampel. domain: jika bakteri dalam distribusi (dalam), atau OOD (ood)

Detail dari dataset dapat ditemukan di kertas tambahan.

Membagi Contoh
'test' 100.000
'test_ood' 600.000
'train' 1.000.000
'validation' 100.000
'validation_ood' 600.000
  • Fitur :
FeaturesDict({
    'domain': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=130),
    'seq': Text(shape=(), dtype=tf.string),
    'seq_info': Text(shape=(), dtype=tf.string),
})
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}