genmica_ood

  • תיאור :

זיהוי חיידקים המבוסס על רצפים גנומיים טומן בחובו הבטחה לגילוי מוקדם של מחלות, אך דורש מודל שיכול להפיק תחזיות ביטחון נמוך על רצפים גנומיים מחוץ להפצה (OOD) מחיידקים חדשים שלא היו נוכחים בנתוני האימון.

אנו מציגים מערך נתונים גנומי לזיהוי OOD המאפשר לחוקרים אחרים לסמן התקדמות בבעיה חשובה זו. סוגים חדשים של חיידקים מתגלים בהדרגה עם השנים. קיבוץ כיתות לפי שנים הוא דרך טבעית לחקות את הדוגמאות בתוך ההפצה וה-OOD.

מערך הנתונים מכיל רצפים גנומיים שנדגמו מ-10 מחלקות חיידקים שהתגלו לפני שנת 2011 כמחלקות בתפוצה, 60 מחלקות חיידקים שהתגלו בין השנים 2011-2016 כ-OOD לצורך אימות, ועוד 60 מחלקות חיידקים שונות שהתגלו לאחר 2016 כ-OOD לבדיקה, בסך הכל 130 מחלקות חיידקים. שים לב שנתוני הדרכה, אימות ומבחן מסופקים עבור שיעורי ההפצה, ונתוני אימות ונתוני מבחן מסופקים עבור שיעורי OOD. מטבעם, נתוני OOD אינם זמינים בזמן האימון.

הרצף הגנומי הוא באורך 250, מורכב מתווים של {A, C, G, T}. גודל המדגם של כל כיתה הוא 100,000 בהכשרה ו-10,000 עבור מערכי האימות והמבחנים.

עבור כל דוגמה, התכונות כוללות: seq: רצף ה-DNA הקלט המורכב על ידי {A, C, G, T}. תווית: שם מחלקת החיידקים. seq_info: מקור רצף ה-DNA, כלומר, שם הגנום, מספר ההצטרפות ל-NCBI והמיקום ממנו נדגמו. תחום: אם החיידק נמצא בתפוצה (in), או OOD (ood)

ניתן למצוא את הפרטים של מערך הנתונים בתוספת הנייר.

לְפַצֵל דוגמאות
'test' 100,000
'test_ood' 600,000
'train' 1,000,000
'validation' 100,000
'validation_ood' 600,000
  • מבנה תכונה :
FeaturesDict({
    'domain': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
    'seq': Text(shape=(), dtype=string),
    'seq_info': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תְחוּם טֶקסט חוּט
תווית ClassLabel int64
seq טֶקסט חוּט
seq_info טֶקסט חוּט
  • ציטוט :
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}