لدي سؤال؟ تواصل مع المجتمع في منتدى زيارة منتدى TensorFlow

علم الجينوم

  • الوصف :

إن تحديد البكتيريا على أساس التسلسل الجيني يبشر بالكشف المبكر عن الأمراض ، ولكنه يتطلب نموذجًا يمكنه إنتاج تنبؤات ثقة منخفضة بشأن التسلسلات الجينية خارج التوزيع (OOD) من بكتيريا جديدة لم تكن موجودة في بيانات التدريب.

نقدم مجموعة بيانات الجينوم لاكتشاف OOD التي تسمح للباحثين الآخرين بقياس التقدم المحرز في هذه المشكلة المهمة. يتم اكتشاف فئات بكتيرية جديدة تدريجيًا على مر السنين. يعد تجميع الفئات حسب السنوات طريقة طبيعية لتقليد أمثلة التوزيع الداخلي وأمثلة OOD.

تحتوي مجموعة البيانات على متواليات جينومية مأخوذة من 10 فئات بكتيريا تم اكتشافها قبل عام 2011 كفئات توزيع ، و 60 فئة بكتيريا تم اكتشافها بين 2011-2016 باعتبارها OOD للتحقق من الصحة ، و 60 فئة أخرى من البكتيريا تم اكتشافها بعد عام 2016 على أنها OOD للاختبار في المجموع 130 فئة من البكتيريا. لاحظ أنه يتم توفير بيانات التدريب والتحقق من الصحة والاختبار لفئات التوزيع ، ويتم توفير بيانات التحقق من الصحة والاختبار لفئات OOD. بحكم طبيعتها ، لا تتوفر بيانات OOD في وقت التدريب.

يبلغ طول التسلسل الجينومي 250 ، ويتألف من أحرف {A ، C ، G ، T}. حجم العينة لكل فصل هو 100000 في التدريب و 10000 لمجموعات التحقق من الصحة والاختبار.

لكل مثال ، الميزات تتضمن: seq: تسلسل DNA الإدخال المؤلف من {A، C، G، T}. التسمية: اسم فئة البكتيريا. seq_info: مصدر تسلسل الحمض النووي ، أي اسم الجينوم ورقم دخول NCBI والموقع الذي تم أخذ العينات منه. المجال: إذا كانت البكتيريا قيد التوزيع (في) ، أو OOD (فيضان)

يمكن العثور على تفاصيل مجموعة البيانات في الملحق الورقي.

انشق، مزق أمثلة
'test' 100،000
'test_ood' 600000
'train' 1،000،000
'validation' 100،000
'validation_ood' 600000
  • الميزات :
FeaturesDict({
    'domain': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=130),
    'seq': Text(shape=(), dtype=tf.string),
    'seq_info': Text(shape=(), dtype=tf.string),
})
  • الاقتباس :
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}