ช่วยปกป้อง Great Barrier Reef กับ TensorFlow บน Kaggle เข้าร่วมท้าทาย

genomics_ood

  • รายละเอียด:

การระบุแบคทีเรียโดยพิจารณาจากลำดับจีโนมถือเป็นคำมั่นสัญญาในการตรวจหาโรคตั้งแต่เนิ่นๆ แต่ต้องใช้แบบจำลองที่สามารถแสดงการคาดการณ์ที่มีความเชื่อมั่นต่ำในลำดับจีโนมที่ไม่อยู่ในการกระจาย (OOD) จากแบคทีเรียชนิดใหม่ที่ไม่มีอยู่ในข้อมูลการฝึกอบรม

เราแนะนำชุดข้อมูลจีโนมสำหรับการตรวจจับ OOD ที่ช่วยให้นักวิจัยคนอื่นๆ สามารถเปรียบเทียบความคืบหน้าของปัญหาที่สำคัญนี้ได้ คลาสแบคทีเรียใหม่จะค่อยๆ ค้นพบในช่วงหลายปีที่ผ่านมา การจัดกลุ่มชั้นเรียนตามปีเป็นวิธีธรรมชาติในการเลียนแบบตัวอย่างในการกระจายและ OOD

ชุดข้อมูลประกอบด้วยลำดับจีโนมที่สุ่มตัวอย่างจาก 10 คลาสแบคทีเรียที่ค้นพบก่อนปี 2554 เป็นคลาสในการกระจาย แบคทีเรีย 60 คลาสที่ค้นพบระหว่างปี 2554-2559 เป็น OOD สำหรับการตรวจสอบ และอีก 60 คลาสแบคทีเรียที่แตกต่างกันที่ค้นพบหลังปี 2559 เป็น OOD สำหรับการทดสอบ ในจำนวนแบคทีเรียทั้งหมด 130 คลาส โปรดทราบว่าข้อมูลการฝึกอบรม การตรวจสอบความถูกต้อง และการทดสอบมีให้สำหรับคลาสที่จำหน่าย และข้อมูลการตรวจสอบความถูกต้องและการทดสอบได้รับการจัดเตรียมสำหรับคลาส OOD โดยธรรมชาติแล้ว จะไม่มีข้อมูล OOD ในขณะฝึกอบรม

ลำดับจีโนมมีความยาว 250 ซึ่งประกอบด้วยอักขระ {A, C, G, T} ขนาดตัวอย่างของแต่ละชั้นเรียนคือ 100,000 ในการฝึกอบรมและ 10,000 สำหรับชุดตรวจสอบและทดสอบ

สำหรับแต่ละตัวอย่าง คุณลักษณะประกอบด้วย: seq: ลำดับดีเอ็นเออินพุตที่ประกอบด้วย {A, C, G, T} ป้ายกำกับ: ชื่อของชั้นแบคทีเรีย seq_info: ที่มาของลำดับดีเอ็นเอ กล่าวคือ ชื่อจีโนม หมายเลขภาคยานุวัติ NCBI และตำแหน่งที่สุ่มตัวอย่าง โดเมน: ถ้าแบคทีเรียอยู่ในการกระจาย (ใน) หรือ OOD (ood)

รายละเอียดของชุดข้อมูลสามารถพบได้ในเอกสารประกอบ

แยก ตัวอย่าง
'test' 100,000
'test_ood' 600,000
'train' 1,000,000
'validation' 100,000
'validation_ood' 600,000
  • คุณสมบัติ:
FeaturesDict({
    'domain': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=130),
    'seq': Text(shape=(), dtype=tf.string),
    'seq_info': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}