کاردیوتاکس

  • توضیحات :

مجموعه داده‌های سمیت قلبی دارو [1-2] یک کار طبقه‌بندی مولکولی برای تشخیص سمیت قلبی ناشی از اتصال هدف hERG، پروتئین مرتبط با ریتم ضربان قلب است. داده ها بیش از 9000 مولکول با فعالیت hERG را پوشش می دهند.

  1. داده ها به چهار تقسیم می شوند: train، test-iid، test-ood1، test-ood2.

  2. هر مولکول در مجموعه داده دارای حاشیه نویسی گراف دو بعدی است که برای تسهیل مدل سازی شبکه عصبی گراف طراحی شده است. گره ها اتم های مولکول و لبه ها پیوند هستند. هر اتم به عنوان یک بردار نشان داده می شود که اطلاعات پایه اتم مانند نوع اتم را رمزگذاری می کند. منطق مشابهی در مورد اوراق قرضه صدق می کند.

  3. ما فاصله اثر انگشت Tanimoto (تا داده‌های آموزشی) را برای هر مولکول در مجموعه‌های آزمایشی گنجانده‌ایم تا تحقیق در مورد تغییر توزیعی در حوزه نمودار را تسهیل کنیم.

برای هر مثال، ویژگی ها عبارتند از: اتم ها: یک تانسور دو بعدی با شکل (60، 27) که ویژگی های گره را ذخیره می کند. مولکول هایی با کمتر از 60 اتم با صفر پوشانده می شوند. هر اتم دارای 27 ویژگی اتمی است. جفت: یک تانسور سه بعدی با شکل (60، 60، 12) ویژگی های لبه را ذخیره می کند. هر لبه دارای 12 ویژگی لبه است. atom_mask: یک تانسور 1 بعدی با شکل (60، ) که ماسک های گره را ذخیره می کند. 1 نشان می دهد که اتم مربوطه واقعی است، در غیر این صورت یک اتم پر شده است. pair_mask: یک تانسور دو بعدی با شکل (60، 60) که ماسک های لبه را ذخیره می کند. 1 نشان می دهد که لبه مربوطه واقعی است، در غیر این صورت یک لبه پر شده است. فعال: یک بردار یک داغ که نشان می دهد که آیا مولکول سمی است یا نه. [0، 1] نشان می دهد سمی است، در غیر این صورت [1، 0] غیر سمی است.

منابع

[1]: VB Siramshetty و همکاران. ارزیابی انتقادی روش‌های هوش مصنوعی برای پیش‌بینی مهار کانال hERG در عصر داده‌های بزرگ. JCIM، 2020. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884

[2]: K. Han et al. شبکه های عصبی نمودار قابل اعتماد برای کشف دارو تحت تغییر توزیع. NeurIPS DistShift Workshop 2021. https://arxiv.org/abs/2111.12951

شکاف مثال ها
'test' 839
'test2' 177
'train' 6,523
'validation' 1631
  • ساختار ویژگی :
FeaturesDict({
    'active': Tensor(shape=(2,), dtype=int64),
    'atom_mask': Tensor(shape=(60,), dtype=float32),
    'atoms': Tensor(shape=(60, 27), dtype=float32),
    'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
    'molecule_id': string,
    'pair_mask': Tensor(shape=(60, 60), dtype=float32),
    'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
فعال تانسور (2،) int64
اتم_ماسک تانسور (60،) float32
اتم ها تانسور (60، 27) float32
dist2topk_nbs تانسور (1،) float32
molecule_id تانسور رشته
pair_mask تانسور (60، 60) float32
جفت تانسور (60، 60، 12) float32
  • نقل قول :
@ARTICLE{Han2021-tu,
  title         = "Reliable Graph Neural Networks for Drug Discovery Under
                   Distributional Shift",
  author        = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
  month         =  nov,
  year          =  2021,
  archivePrefix = "arXiv",
  primaryClass  = "cs.LG",
  eprint        = "2111.12951"
}