- תיאור :
'ogbg-molpcba' הוא מערך נתונים מולקולרי שנדגם מ-PubChem BioAssay. זהו מערך חיזוי גרף מ-Open Graph Benchmark (OGB).
מערך הנתונים הזה הוא ניסיוני, והממשק API נתון לשינויים במהדורות עתידיות.
התיאור שלהלן של מערך הנתונים מותאם ממסמך OGB:
פורמט הכנסה
כל המולקולות מעובדות מראש באמצעות RDKit ([1]).
- כל גרף מייצג מולקולה, שבה צמתים הם אטומים, וקצוות הם קשרים כימיים.
- תכונות של צומת קלט הן 9 מימדיות, המכילות מספר אטומי וכיריאליות, כמו גם תכונות אטום נוספות כגון מטען פורמלי והאם האטום נמצא בטבעת.
- תכונות קצה הקלט הן תלת מימדיות, המכילות סוג קשר, סטריאוכימיה של קשר, כמו גם תכונת קשר נוספת המציינת אם הקשר מצומד.
התיאור המדויק של כל התכונות זמין בכתובת https://github.com/snap-stanford/ogb/blob/master/ogb/utils/features.py
נְבוּאָה
המשימה היא לחזות 128 פעילויות ביולוגיות שונות (לא פעילות/פעילה). ראה [2] ו- [3] לתיאור נוסף על יעדים אלה. לא כל המטרות חלות על כל מולקולה: מטרות חסרות מסומנות על ידי NaNs.
הפניות
[1]: גרג לנדרום, et al. 'RDKit: כימיפורמטיקה בקוד פתוח'. כתובת אתר: https://github.com/rdkit/rdkit
[2]: בהארת' רמסונדר, סטיבן קרנס, פטריק ריילי, דייל וובסטר, דיוויד קונרדינג וויג'יי פאנד. 'רשתות ריבוי משימות רבות לגילוי סמים'. כתובת אתר: https://arxiv.org/pdf/1502.02072.pdf
[3]: Zhenqin Wu, Bharath Ramsundar, Evan N Feinberg, Joseph Gomes, Caleb Geniesse, Aneesh S. Pappu, Karl Leswing, ו-Vijay Pande. MoleculeNet: אמת מידה ללמידת מכונה מולקולרית. מדע כימי, 9(2):513-530, 2018.
דף הבית : https://ogb.stanford.edu/docs/graphprop
קוד מקור :
tfds.datasets.ogbg_molpcba.Builder
גרסאות :
-
0.1.0
: שחרור ראשוני של API ניסיוני. -
0.1.1
: חושף את מספר הקצוות בכל גרף בצורה מפורשת. -
0.1.2
: הוסף שדה מטא נתונים עבור GraphVisualizer. -
0.1.3
(ברירת מחדל): הוסף שדה מטא נתונים עבור שמות של משימות בודדות.
-
גודל הורדה :
37.70 MiB
גודל ערכת נתונים:
822.53 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 43,793 |
'train' | 350,343 |
'validation' | 43,793 |
- מבנה תכונה :
FeaturesDict({
'edge_feat': Tensor(shape=(None, 3), dtype=float32),
'edge_index': Tensor(shape=(None, 2), dtype=int64),
'labels': Tensor(shape=(128,), dtype=float32),
'node_feat': Tensor(shape=(None, 9), dtype=float32),
'num_edges': Tensor(shape=(None,), dtype=int64),
'num_nodes': Tensor(shape=(None,), dtype=int64),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
edge_feat | מוֹתֵחַ | (אין, 3) | לצוף32 | |
edge_index | מוֹתֵחַ | (אין, 2) | int64 | |
תוויות | מוֹתֵחַ | (128,) | לצוף32 | |
node_feat | מוֹתֵחַ | (אין, 9) | לצוף32 | |
num_edges | מוֹתֵחַ | (אף אחד,) | int64 | |
num_nodes | מוֹתֵחַ | (אף אחד,) | int64 |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ):
- דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@inproceedings{DBLP:conf/nips/HuFZDRLCL20,
author = {Weihua Hu and
Matthias Fey and
Marinka Zitnik and
Yuxiao Dong and
Hongyu Ren and
Bowen Liu and
Michele Catasta and
Jure Leskovec},
editor = {Hugo Larochelle and
Marc Aurelio Ranzato and
Raia Hadsell and
Maria{-}Florina Balcan and
Hsuan{-}Tien Lin},
title = {Open Graph Benchmark: Datasets for Machine Learning on Graphs},
booktitle = {Advances in Neural Information Processing Systems 33: Annual Conference
on Neural Information Processing Systems 2020, NeurIPS 2020, December
6-12, 2020, virtual},
year = {2020},
url = {https://proceedings.neurips.cc/paper/2020/hash/fb60d411a5c5b72b2e7d3527cfc84fd0-Abstract.html},
timestamp = {Tue, 19 Jan 2021 15:57:06 +0100},
biburl = {https://dblp.org/rec/conf/nips/HuFZDRLCL20.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}