Эта страница была переведа с помощью Cloud Translation API.
Switch to English

genomics_ood

  • Описание :

Идентификация бактерий на основе геномных последовательностей обещает раннее обнаружение заболеваний, но требует модели, которая может выдавать низко достоверные прогнозы геномных последовательностей вне распределения (OOD) новых бактерий, которые не присутствовали в данных обучения.

Мы представляем набор данных геномики для обнаружения OOD, который позволяет другим исследователям оценивать прогресс в решении этой важной проблемы. С годами постепенно открываются новые классы бактерий. Группировка классов по годам - ​​это естественный способ имитировать распространяемые примеры и примеры OOD.

Набор данных содержит геномные последовательности, взятые из 10 классов бактерий, которые были обнаружены до 2011 года в качестве классов распределения, 60 классов бактерий, обнаруженных в период с 2011 по 2016 год как OOD для проверки, и еще 60 различных классов бактерий, обнаруженных после 2016 года как OOD для тестирования всего 130 классов бактерий. Обратите внимание, что данные обучения, проверки и тестирования предоставляются для классов, находящихся в распределении, а данные проверки и тестирования предоставляются для классов OOD. По своей природе данные OOD недоступны во время обучения.

Геномная последовательность имеет длину 250 и состоит из символов {A, C, G, T}. Размер выборки каждого класса составляет 100 000 для обучения и 10 000 для наборов для проверки и тестирования.

Для каждого примера функции включают: seq: входная последовательность ДНК, состоящая из {A, C, G, T}. label: название класса бактерий. seq_info: источник последовательности ДНК, т. е. имя генома, номер доступа NCBI и позиция, из которой был взят образец. домен: если бактерии нераспространены (нет), или нет (нет)

Подробную информацию о наборе данных можно найти в дополнительном документе.

Трещина Примеры
'test' 100 000
'test_ood' 600 000
'train' 1,000,000
'validation' 100 000
'validation_ood' 600 000
  • Особенности :
FeaturesDict({
    'domain': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=130),
    'seq': Text(shape=(), dtype=tf.string),
    'seq_info': Text(shape=(), dtype=tf.string),
})
  • Контролируемые ключи (см. as_supervised doc ): ('seq', 'label')

  • Цитата :

@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}