امروز برای رویداد محلی TensorFlow خود در همه جا پاسخ دهید!
این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.
Switch to English

ژنومیک_خوب

  • توضیحات :

شناسایی باکتری ها بر اساس توالی های ژنومی نوید تشخیص زودرس بیماری ها را می دهد ، اما به مدلی نیاز دارد که بتواند توالی های ژنومی خارج از توزیع (OOD) خارج از توزیع را از باکتری های جدید که در داده های آموزش وجود ندارد ، پیش بینی کند.

ما یک مجموعه داده ژنومی برای شناسایی OOD معرفی می کنیم که به سایر محققان اجازه می دهد تا پیشرفت این مسئله مهم را معیار قرار دهند. با گذشت سالها به تدریج کلاسهای جدید باکتری کشف می شود. گروه بندی کلاسها بر اساس سالها یک روش طبیعی برای تقلید از نمونههای توزیع و OOD است.

این مجموعه داده شامل توالی ژنومی است که از 10 کلاس باکتری نمونه برداری شده است که قبل از سال 2011 به عنوان کلاس های توزیع ، 60 کلاس باکتری کشف شده بین 2011-2016 به عنوان OOD برای اعتبار سنجی و 60 کلاس مختلف باکتری دیگر بعد از 2016 به عنوان OOD برای آزمایش کشف شده است ، در کل 130 کلاس باکتری است. توجه داشته باشید که داده های آموزش ، اعتبارسنجی و آزمون برای کلاس های توزیع و اعتبار و داده های آزمون برای کلاس های OOD ارائه شده است. از نظر ماهیت ، داده های OOD در زمان آموزش در دسترس نیست.

دنباله ژنومی 250 طول است و توسط شخصیت های {A، C، G، T} ساخته شده است. حجم نمونه هر کلاس در آموزش 100000 و در مجموعه اعتبار سنجی و آزمون 10000 است.

برای هر مثال ، ویژگی ها عبارتند از: seq: توالی DNA ورودی که توسط {A ، C ، G ، T} تشکیل شده است. label: نام کلاس باکتری ها است. seq_info: منبع توالی DNA ، یعنی نام ژنوم ، شماره الحاق NCBI و موقعیتی که از آن نمونه برداری شده است. دامنه: اگر باکتری در توزیع باشد (داخل) یا OOD باشد

جزئیات مجموعه داده را می توان در مقاله تکمیلی یافت.

شکاف مثال ها
'test' 100000
'test_ood' 600000
'train' 1،000،000
'validation' 100000
'validation_ood' 600000
  • ویژگی ها :
FeaturesDict({
    'domain': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=130),
    'seq': Text(shape=(), dtype=tf.string),
    'seq_info': Text(shape=(), dtype=tf.string),
})
  • کلیدهای تحت نظارت (به as_supervised سند نظارت شده مراجعه کنید): ('seq', 'label')

  • نقل قول :

@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}