ogbg_molpcba

با مجموعه‌ها، منظم بمانید ذخیره و دسته‌بندی محتوا براساس اولویت‌های شما.

  • توضیحات :

'ogbg-molpcba' یک مجموعه داده مولکولی است که از PubChem BioAssay نمونه برداری شده است. این یک مجموعه داده پیش‌بینی نمودار از معیار نمودار باز (OGB) است.

این مجموعه داده آزمایشی است و API ممکن است در نسخه‌های بعدی تغییر کند.

شرح زیر مجموعه داده از مقاله OGB اقتباس شده است:

فرمت ورودی

تمام مولکول ها با استفاده از RDKit ([1]) از پیش پردازش شده اند.

  • هر نمودار یک مولکول را نشان می دهد که گره ها اتم هستند و لبه ها پیوندهای شیمیایی هستند.
  • ویژگی‌های گره ورودی 9 بعدی هستند، شامل عدد اتمی و کایرالیته، و همچنین سایر ویژگی‌های اتم اضافی مانند شارژ رسمی و اینکه آیا اتم در حلقه است یا خیر.
  • ویژگی‌های لبه ورودی سه بعدی هستند، شامل نوع پیوند، استریوشیمی پیوند، و همچنین یک ویژگی پیوند اضافی که نشان می‌دهد آیا پیوند مزدوج است یا خیر.

شرح دقیق همه ویژگی ها در https://github.com/snap-stanford/ogb/blob/master/ogb/utils/features.py موجود است.

پیش بینی

وظیفه پیش بینی 128 فعالیت بیولوژیکی مختلف (غیرفعال/فعال) است. برای توضیحات بیشتر در مورد این اهداف به [2] و [3] مراجعه کنید. همه اهداف برای هر مولکول اعمال نمی شوند: اهداف گم شده با NaNs نشان داده می شوند.

منابع

[1]: گرگ لاندروم و همکاران. "RDKit: شیمی‌فورماتیک منبع باز". آدرس اینترنتی: https://github.com/rdkit/rdkit

[2]: بهارات رامسوندار، استیون کرنز، پاتریک رایلی، دیل وبستر، دیوید کونردینگ و ویجی پانده. "شبکه های چندوظیفه ای انبوه برای کشف مواد مخدر". آدرس: https://arxiv.org/pdf/1502.02072.pdf

[3]: ژنکین وو، بهارات رامسوندار، ایوان ان فینبرگ، جوزف گومز، کالب جنیس، آنیش اس پاپو، کارل لسوینگ، و ویجی پانده. MoleculeNet: معیاری برای یادگیری ماشین مولکولی. علوم شیمی، 9 (2): 513-530، 2018.

  • صفحه اصلی : https://ogb.stanford.edu/docs/graphprop

  • کد منبع : tfds.graphs.ogbg_molpcba.OgbgMolpcba

  • نسخه ها :

    • 0.1.0 : انتشار اولیه API آزمایشی.
    • 0.1.1 : تعداد یال ها را در هر نمودار به وضوح نشان می دهد.
    • 0.1.2 : فیلد ابرداده را برای GraphVisualizer اضافه کنید.
    • 0.1.3 (پیش‌فرض): فیلد ابرداده را برای نام تکالیف اضافه کنید.
  • حجم دانلود : 37.70 MiB

  • حجم مجموعه داده : 822.53 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'test' 43793
'train' 350,343
'validation' 43793
  • ساختار ویژگی :
FeaturesDict({
    'edge_feat': Tensor(shape=(None, 3), dtype=float32),
    'edge_index': Tensor(shape=(None, 2), dtype=int64),
    'labels': Tensor(shape=(128,), dtype=float32),
    'node_feat': Tensor(shape=(None, 9), dtype=float32),
    'num_edges': Tensor(shape=(None,), dtype=int64),
    'num_nodes': Tensor(shape=(None,), dtype=int64),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
edge_feat تانسور (هیچ، 3) float32
edge_index تانسور (هیچ، 2) int64
برچسب ها تانسور (128،) float32
node_feat تانسور (هیچ، 9) float32
num_edges تانسور (هیچ یک،) int64
num_nodes تانسور (هیچ یک،) int64

تجسم

  • نقل قول :
@inproceedings{DBLP:conf/nips/HuFZDRLCL20,
  author    = {Weihua Hu and
               Matthias Fey and
               Marinka Zitnik and
               Yuxiao Dong and
               Hongyu Ren and
               Bowen Liu and
               Michele Catasta and
               Jure Leskovec},
  editor    = {Hugo Larochelle and
               Marc Aurelio Ranzato and
               Raia Hadsell and
               Maria{-}Florina Balcan and
               Hsuan{-}Tien Lin},
  title     = {Open Graph Benchmark: Datasets for Machine Learning on Graphs},
  booktitle = {Advances in Neural Information Processing Systems 33: Annual Conference
               on Neural Information Processing Systems 2020, NeurIPS 2020, December
               6-12, 2020, virtual},
  year      = {2020},
  url       = {https://proceedings.neurips.cc/paper/2020/hash/fb60d411a5c5b72b2e7d3527cfc84fd0-Abstract.html},
  timestamp = {Tue, 19 Jan 2021 15:57:06 +0100},
  biburl    = {https://dblp.org/rec/conf/nips/HuFZDRLCL20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}