एमएल समुदाय दिवस 9 नवंबर है! TensorFlow, JAX से नई जानकारी के लिए हमसे जुड़ें, और अधिक जानें

जीनोमिक्स_ओड

  • विवरण:

जीनोमिक अनुक्रमों के आधार पर बैक्टीरिया की पहचान में रोगों का शीघ्र पता लगाने का वादा होता है, लेकिन एक ऐसे मॉडल की आवश्यकता होती है जो नए बैक्टीरिया से आउट-ऑफ-डिस्ट्रीब्यूशन (OOD) जीनोमिक अनुक्रमों पर कम आत्मविश्वास की भविष्यवाणी कर सके जो प्रशिक्षण डेटा में मौजूद नहीं थे।

हम OOD का पता लगाने के लिए एक जीनोमिक्स डेटासेट पेश करते हैं जो अन्य शोधकर्ताओं को इस महत्वपूर्ण समस्या पर प्रगति को बेंचमार्क करने की अनुमति देता है। वर्षों में धीरे-धीरे नए जीवाणु वर्ग खोजे जाते हैं। इन-डिस्ट्रीब्यूशन और OOD उदाहरणों की नकल करने का एक स्वाभाविक तरीका वर्षों से कक्षाओं को समूहीकृत करना है।

डेटासेट में 10 बैक्टीरिया वर्गों से सैंपल किए गए जीनोमिक अनुक्रम शामिल हैं जिन्हें वर्ष 2011 से पहले इन-डिस्ट्रीब्यूशन क्लास के रूप में खोजा गया था, 60 बैक्टीरिया वर्गों को 2011-2016 के बीच सत्यापन के लिए OOD के रूप में खोजा गया था, और अन्य 60 विभिन्न बैक्टीरिया वर्गों को 2016 के बाद परीक्षण के लिए OOD के रूप में खोजा गया था। कुल 130 बैक्टीरिया वर्गों में। ध्यान दें कि इन-डिस्ट्रीब्यूशन कक्षाओं के लिए प्रशिक्षण, सत्यापन और परीक्षण डेटा प्रदान किया जाता है, और ओओडी कक्षाओं के लिए सत्यापन और परीक्षण डेटा प्रदान किया जाता है। इसकी प्रकृति से, प्रशिक्षण के समय OOD डेटा उपलब्ध नहीं होता है।

जीनोमिक अनुक्रम 250 लंबा है, जो {ए, सी, जी, टी} के वर्णों से बना है। प्रशिक्षण में प्रत्येक वर्ग का नमूना आकार 100,000 है और सत्यापन और परीक्षण सेट के लिए 10,000 है।

प्रत्येक उदाहरण के लिए, सुविधाओं में शामिल हैं: seq: {ए, सी, जी, टी} द्वारा रचित इनपुट डीएनए अनुक्रम। लेबल: जीवाणु वर्ग का नाम। seq_info: डीएनए अनुक्रम का स्रोत, यानी, जीनोम नाम, एनसीबीआई परिग्रहण संख्या, और वह स्थिति जहां से इसका नमूना लिया गया था। डोमेन: यदि बैक्टीरिया इन-डिस्ट्रीब्यूशन (इन), या ओओडी (ओओडी) है

डेटासेट का विवरण पेपर पूरक में पाया जा सकता है।

विभाजित करना उदाहरण
'test' 100,000
'test_ood' 600,000
'train' 1,000,000
'validation' 100,000
'validation_ood' 600,000
  • विशेषताएं:
FeaturesDict({
    'domain': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=130),
    'seq': Text(shape=(), dtype=tf.string),
    'seq_info': Text(shape=(), dtype=tf.string),
})
  • प्रशस्ति पत्र:
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}