- תיאור:
'ogbg-molpcba' הוא מאגר נתונים מולקולרי שנדגם מ- PubChem BioAssay. זהו מאגר נתונים לחיזוי גרפים מהמדד Open Graph Benchmark (OGB).
מערך נתונים זה הוא ניסיוני, וממשק ה- API כפוף לשינויים במהדורות עתידיות.
התיאור שלהלן של מערך הנתונים מותאם מנייר ה- OGB:
פורמט הכנסה
כל המולקולות מעובדות מראש באמצעות RDKit ([1]).
- כל גרף מייצג מולקולה, שבה הצמתים הם אטומים, והקצוות הם קשרים כימיים.
- תכונות צומת הקלט הן 9-ממדיות, המכילות מספר אטומי וכיראליות, כמו גם תכונות אטום נוספות כגון מטען פורמלי והאם האטום נמצא בזירה.
- תכונות קצה הקלט הן תלת מימדיות, המכילות סוג קשר, סטריאוכימיה של קשרים, כמו גם תכונת קשר נוספת המציינת אם הקשר מצומד.
התיאור המדויק של כל התכונות זמין בכתובת https://github.com/snap-stanford/ogb/blob/master/ogb/utils/features.py
נְבוּאָה
המשימה היא לחזות 128 פעילויות ביולוגיות שונות (לא פעילות/פעילות). עיין [2] ו- [3] לתיאור נוסף אודות מטרות אלה. לא כל המטרות חלות על כל מולקולה: מטרות חסרות מסומנות על ידי NaNs.
הפניות
[1]: גרג לנדרום ואחרים. 'RDKit: כימינפורמטיקה של קוד פתוח'. כתובת האתר: https://github.com/rdkit/rdkit
[2]: בהארת 'רמסונדאר, סטיבן קארנס, פטריק ריילי, דייל וובסטר, דיוויד קונרדינג וויג'יי פנדה. 'רשתות ריבוי משימות לגילוי סמים'. כתובת האתר: https://arxiv.org/pdf/1502.02072.pdf
[3]: Zhenqin Wu, Bharath Ramsundar, Evan N Feinberg, Joseph Gomes, Caleb Geniesse, Aneesh S. Pappu, Karl Leswing ו- Vijay Pande. MoleculeNet: אמת מידה ללמידת מכונות מולקולריות. מדעי הכימיה, 9 (2): 513-530, 2018.
קוד מקור:
tfds.graphs.ogbg_molpcba.OgbgMolpcba
גרסאות:
-
0.1.0
: גרסה ראשונית של ממשק API ניסיוני. -
0.1.1
: חושף את מספר הקצוות בכל גרף במפורש. -
0.1.2
: הוספת שדה metadata עבור GraphVisualizer. -
0.1.3
(ברירת המחדל) : הוספת שדה metadata עבור שמות של משימות בודדות.
-
גודל ההורדה:
37.70 MiB
מערך נתונים גודל:
822.53 MiB
Auto-במטמון ( תיעוד ): אין
פיצולים:
לְפַצֵל | דוגמאות |
---|---|
'test' | 43,793 |
'train' | 350,343 |
'validation' | 43,793 |
- מאפיינים:
FeaturesDict({
'edge_feat': Tensor(shape=(None, 3), dtype=tf.float32),
'edge_index': Tensor(shape=(None, 2), dtype=tf.int64),
'labels': Tensor(shape=(128,), dtype=tf.float32),
'node_feat': Tensor(shape=(None, 9), dtype=tf.float32),
'num_edges': Tensor(shape=(None,), dtype=tf.int64),
'num_nodes': Tensor(shape=(None,), dtype=tf.int64),
})
מפתחות השגחה (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ):
- דוגמאות ( tfds.as_dataframe ):
- ציטוט:
@inproceedings{DBLP:conf/nips/HuFZDRLCL20,
author = {Weihua Hu and
Matthias Fey and
Marinka Zitnik and
Yuxiao Dong and
Hongyu Ren and
Bowen Liu and
Michele Catasta and
Jure Leskovec},
editor = {Hugo Larochelle and
Marc Aurelio Ranzato and
Raia Hadsell and
Maria{-}Florina Balcan and
Hsuan{-}Tien Lin},
title = {Open Graph Benchmark: Datasets for Machine Learning on Graphs},
booktitle = {Advances in Neural Information Processing Systems 33: Annual Conference
on Neural Information Processing Systems 2020, NeurIPS 2020, December
6-12, 2020, virtual},
year = {2020},
url = {https://proceedings.neurips.cc/paper/2020/hash/fb60d411a5c5b72b2e7d3527cfc84fd0-Abstract.html},
timestamp = {Tue, 19 Jan 2021 15:57:06 +0100},
biburl = {https://dblp.org/rec/conf/nips/HuFZDRLCL20.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}