ゲノミクス_ood

  • 説明

ゲノム配列に基づく細菌の同定は、疾患の早期発見の可能性を秘めていますが、トレーニングデータに存在しなかった新しい細菌からの分布外(OOD)ゲノム配列の信頼性の低い予測を出力できるモデルが必要です。

他の研究者がこの重要な問題の進捗状況をベンチマークできるようにする、OOD検出用のゲノミクスデータセットを紹介します。新しい細菌クラスは、何年にもわたって徐々に発見されています。クラスを年ごとにグループ化することは、配布中およびOODの例を模倣するための自然な方法です。

データセットには、2011年以前に分布クラスとして発見された10の細菌クラス、2011年から2016年の間に検証用のOODとして発見された60の細菌クラス、および2016年以降にテスト用のOODとして発見された別の60の異なる細菌クラスからサンプリングされたゲノム配列が含まれています。合計130のバクテリアクラス。トレーニング、検証、およびテストデータは分布内クラスに提供され、検証およびテストデータはOODクラスに提供されることに注意してください。その性質上、OODデータはトレーニング時に利用できません。

ゲノム配列は250の長さで、{A、C、G、T}の文字で構成されています。各クラスのサンプルサイズは、トレーニングで100,000、検証セットとテストセットで10,000です。

各例の機能は次のとおりです。seq:{A、C、G、T}で構成される入力DNA配列。ラベル:バクテリアクラスの名前。 seq_info:DNA配列のソース、つまり、ゲノム名、NCBIアクセッション番号、およびそれがサンプリングされた位置。ドメイン:バクテリアが分布している場合(in)、またはOOD(ood)

データセットの詳細は、補足の論文に記載されています。

スプリット
'test' 100,000
'test_ood' 600,000
'train' 1,000,000
'validation' 100,000
'validation_ood' 600,000
  • 特長
FeaturesDict({
    'domain': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=130),
    'seq': Text(shape=(), dtype=tf.string),
    'seq_info': Text(shape=(), dtype=tf.string),
})
  • 引用
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}