ogbg_molpcba

  • Description:

« ogbg-molpcba » est un ensemble de données moléculaires échantillonné à partir de PubChem BioAssay. Il s'agit d'un ensemble de données de prédiction graphique de l'Open Graph Benchmark (OGB).

Cet ensemble de données est expérimental et l'API est susceptible d'être modifiée dans les prochaines versions.

La description ci-dessous de l'ensemble de données est adaptée de l'article de l'OGB :

Format d'entrée

Toutes les molécules sont prétraitées à l'aide de RDKit ([1]).

  • Chaque graphique représente une molécule, où les nœuds sont des atomes et les arêtes sont des liaisons chimiques.
  • Les caractéristiques des nœuds d'entrée sont en 9 dimensions, contenant le numéro atomique et la chiralité, ainsi que d'autres caractéristiques atomiques supplémentaires telles que la charge formelle et si l'atome est dans l'anneau.
  • Les caractéristiques de bord d'entrée sont tridimensionnelles, contenant le type de liaison, la stéréochimie de la liaison, ainsi qu'une caractéristique de liaison supplémentaire indiquant si la liaison est conjuguée.

La description exacte de toutes les fonctionnalités est disponible à https://github.com/snap-stanford/ogb/blob/master/ogb/utils/features.py

Prédiction

La tâche consiste à prédire 128 activités biologiques différentes (inactives/actives). Voir [2] et [3] pour une description plus détaillée de ces cibles. Toutes les cibles ne s'appliquent pas à chaque molécule : les cibles manquantes sont indiquées par des NaN.

Les références

[1] : Greg Landrum et al. 'RDKit : Cheminformats open-source'. URL: https://github.com/rdkit/rdkit

[2] : Bharath Ramsundar, Steven Kearnes, Patrick Riley, Dale Webster, David Konerding et Vijay Pande. « Réseaux massivement multitâches pour la découverte de médicaments ». URL: https://arxiv.org/pdf/1502.02072.pdf

[3] : Zhenqin Wu, Bharath Ramsundar, Evan N Feinberg, Joseph Gomes, Caleb Geniesse, Aneesh S. Pappu, Karl Leswing et Vijay Pande. MoleculeNet : une référence pour l'apprentissage machine moléculaire. Sciences chimiques, 9 (2) : 513-530, 2018.

  • Page d' accueil: https://ogb.stanford.edu/docs/graphprop

  • Code source: tfds.graphs.ogbg_molpcba.OgbgMolpcba

  • versions:

    • 0.1.0 : Première version de l' API expérimentale.
    • 0.1.1 : Expose le nombre d'arêtes dans chaque graphique explicitement.
    • 0.1.2 (par défaut): Ajouter un champ de métadonnées pour GraphVisualizer.
  • Taille du téléchargement: 37.70 MiB

  • Dataset Taille: 822.53 MiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 43 793
'train' 350 343
'validation' 43 793
  • Caractéristiques:
FeaturesDict({
    'edge_feat': Tensor(shape=(None, 3), dtype=tf.float32),
    'edge_index': Tensor(shape=(None, 2), dtype=tf.int64),
    'labels': Tensor(shape=(128,), dtype=tf.float32),
    'node_feat': Tensor(shape=(None, 9), dtype=tf.float32),
    'num_edges': Tensor(shape=(None,), dtype=tf.int64),
    'num_nodes': Tensor(shape=(None,), dtype=tf.int64),
})

Visualisation

  • citation:
@inproceedings{DBLP:conf/nips/HuFZDRLCL20,
  author    = {Weihua Hu and
               Matthias Fey and
               Marinka Zitnik and
               Yuxiao Dong and
               Hongyu Ren and
               Bowen Liu and
               Michele Catasta and
               Jure Leskovec},
  editor    = {Hugo Larochelle and
               Marc Aurelio Ranzato and
               Raia Hadsell and
               Maria{-}Florina Balcan and
               Hsuan{-}Tien Lin},
  title     = {Open Graph Benchmark: Datasets for Machine Learning on Graphs},
  booktitle = {Advances in Neural Information Processing Systems 33: Annual Conference
               on Neural Information Processing Systems 2020, NeurIPS 2020, December
               6-12, 2020, virtual},
  year      = {2020},
  url       = {https://proceedings.neurips.cc/paper/2020/hash/fb60d411a5c5b72b2e7d3527cfc84fd0-Abstract.html},
  timestamp = {Tue, 19 Jan 2021 15:57:06 +0100},
  biburl    = {https://dblp.org/rec/conf/nips/HuFZDRLCL20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}