ogbg_molpcba

  • תיאור :

'ogbg-molpcba' הוא מערך נתונים מולקולרי שנדגם מ-PubChem BioAssay. זהו מערך חיזוי גרף מ-Open Graph Benchmark (OGB).

מערך הנתונים הזה הוא ניסיוני, והממשק API נתון לשינויים במהדורות עתידיות.

התיאור שלהלן של מערך הנתונים מותאם ממסמך OGB:

פורמט הכנסה

כל המולקולות מעובדות מראש באמצעות RDKit ([1]).

  • כל גרף מייצג מולקולה, שבה צמתים הם אטומים, וקצוות הם קשרים כימיים.
  • תכונות של צומת קלט הן 9 מימדיות, המכילות מספר אטומי וכיריאליות, כמו גם תכונות אטום נוספות כגון מטען פורמלי והאם האטום נמצא בטבעת.
  • תכונות קצה הקלט הן תלת מימדיות, המכילות סוג קשר, סטריאוכימיה של קשר, כמו גם תכונת קשר נוספת המציינת אם הקשר מצומד.

התיאור המדויק של כל התכונות זמין בכתובת https://github.com/snap-stanford/ogb/blob/master/ogb/utils/features.py

נְבוּאָה

המשימה היא לחזות 128 פעילויות ביולוגיות שונות (לא פעילות/פעילה). ראה [2] ו- [3] לתיאור נוסף על יעדים אלה. לא כל המטרות חלות על כל מולקולה: מטרות חסרות מסומנות על ידי NaNs.

הפניות

[1]: גרג לנדרום, et al. 'RDKit: כימיפורמטיקה בקוד פתוח'. כתובת אתר: https://github.com/rdkit/rdkit

[2]: בהארת' רמסונדר, סטיבן קרנס, פטריק ריילי, דייל וובסטר, דיוויד קונרדינג וויג'יי פאנד. 'רשתות ריבוי משימות רבות לגילוי סמים'. כתובת אתר: https://arxiv.org/pdf/1502.02072.pdf

[3]: Zhenqin Wu, Bharath Ramsundar, Evan N Feinberg, Joseph Gomes, Caleb Geniesse, Aneesh S. Pappu, Karl Leswing, ו-Vijay Pande. MoleculeNet: אמת מידה ללמידת מכונה מולקולרית. מדע כימי, 9(2):513-530, 2018.

  • דף הבית : https://ogb.stanford.edu/docs/graphprop

  • קוד מקור : tfds.datasets.ogbg_molpcba.Builder

  • גרסאות :

    • 0.1.0 : שחרור ראשוני של API ניסיוני.
    • 0.1.1 : חושף את מספר הקצוות בכל גרף בצורה מפורשת.
    • 0.1.2 : הוסף שדה מטא נתונים עבור GraphVisualizer.
    • 0.1.3 (ברירת מחדל): הוסף שדה מטא נתונים עבור שמות של משימות בודדות.
  • גודל הורדה : 37.70 MiB

  • גודל ערכת נתונים: 822.53 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 43,793
'train' 350,343
'validation' 43,793
  • מבנה תכונה :
FeaturesDict({
    'edge_feat': Tensor(shape=(None, 3), dtype=float32),
    'edge_index': Tensor(shape=(None, 2), dtype=int64),
    'labels': Tensor(shape=(128,), dtype=float32),
    'node_feat': Tensor(shape=(None, 9), dtype=float32),
    'num_edges': Tensor(shape=(None,), dtype=int64),
    'num_nodes': Tensor(shape=(None,), dtype=int64),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
edge_feat מוֹתֵחַ (אין, 3) לצוף32
edge_index מוֹתֵחַ (אין, 2) int64
תוויות מוֹתֵחַ (128,) לצוף32
node_feat מוֹתֵחַ (אין, 9) לצוף32
num_edges מוֹתֵחַ (אף אחד,) int64
num_nodes מוֹתֵחַ (אף אחד,) int64

רְאִיָה

  • ציטוט :
@inproceedings{DBLP:conf/nips/HuFZDRLCL20,
  author    = {Weihua Hu and
               Matthias Fey and
               Marinka Zitnik and
               Yuxiao Dong and
               Hongyu Ren and
               Bowen Liu and
               Michele Catasta and
               Jure Leskovec},
  editor    = {Hugo Larochelle and
               Marc Aurelio Ranzato and
               Raia Hadsell and
               Maria{-}Florina Balcan and
               Hsuan{-}Tien Lin},
  title     = {Open Graph Benchmark: Datasets for Machine Learning on Graphs},
  booktitle = {Advances in Neural Information Processing Systems 33: Annual Conference
               on Neural Information Processing Systems 2020, NeurIPS 2020, December
               6-12, 2020, virtual},
  year      = {2020},
  url       = {https://proceedings.neurips.cc/paper/2020/hash/fb60d411a5c5b72b2e7d3527cfc84fd0-Abstract.html},
  timestamp = {Tue, 19 Jan 2021 15:57:06 +0100},
  biburl    = {https://dblp.org/rec/conf/nips/HuFZDRLCL20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}