ogbg_molpcba

  • 説明

「ogbg-molpcba」は、PubChemBioAssayからサンプリングされた分子データセットです。これは、Open Graph Benchmark(OGB)からのグラフ予測データセットです。

このデータセットは実験的なものであり、APIは将来のリリースで変更される可能性があります。

以下のデータセットの説明は、OGBペーパーを基にしています。

入力フォーマット

すべての分子は、RDKit([1])を使用して前処理されます。

  • 各グラフは分子を表しており、ノードは原子、エッジは化学結合です。
  • 入力ノードの特徴は9次元であり、原子番号とキラリティーに加えて、形式電荷や原子がリング内にあるかどうかなどの他の追加の原子特徴が含まれています。
  • 入力エッジフィーチャは3次元であり、結合タイプ、結合立体化学、および結合が共役しているかどうかを示す追加の結合フィーチャが含まれています。

すべての機能の正確な説明はで入手できますhttps://github.com/snap-stanford/ogb/blob/master/ogb/utils/features.py

予測

タスクは、128の異なる生物活性(非アクティブ/アクティブ)を予測することです。これらのターゲットの詳細については、[2]および[3]を参照してください。すべてのターゲットが各分子に適用されるわけではありません。欠落しているターゲットはNaNで示されます。

参考文献

[1]:Greg Landrum、etal。 「RDKit:オープンソースのケモインフォマティクス」。 URL: https://github.com/rdkit/rdkit

[2]:Bharath Ramsundar、Steven Kearnes、Patrick Riley、Dale Webster、David Konerding、VijayPande。 「創薬のための大規模なマルチタスクネットワーク」。 URL: https://arxiv.org/pdf/1502.02072.pdf

[3]:Zhenqin Wu、Bharath Ramsundar、Evan N Feinberg、Joseph Gomes、Caleb Geniesse、Aneesh S. Pappu、Karl Leswing、VijayPande。 MoleculeNet:分子機械学習のベンチマーク。化学科学、9(2):513-530、2018。

  • ホームページhttps://ogb.stanford.edu/docs/graphprop

  • ソースコードtfds.graphs.ogbg_molpcba.OgbgMolpcba

  • バージョン

    • 0.1.0 :実験的なAPIの初期リリース。
    • 0.1.1 :明示的に各グラフのエッジの数を公開します。
    • 0.1.2 (デフォルト):GraphVisualizerのメタデータフィールドを追加します。
  • ダウンロードサイズ37.70 MiB

  • データセットのサイズ822.53 MiB

  • オートキャッシュされたドキュメント):いいえ

  • スプリット

スプリット
'test' 43,793
'train' 350,343
'validation' 43,793
  • 特長
FeaturesDict({
    'edge_feat': Tensor(shape=(None, 3), dtype=tf.float32),
    'edge_index': Tensor(shape=(None, 2), dtype=tf.int64),
    'labels': Tensor(shape=(128,), dtype=tf.float32),
    'node_feat': Tensor(shape=(None, 9), dtype=tf.float32),
    'num_edges': Tensor(shape=(None,), dtype=tf.int64),
    'num_nodes': Tensor(shape=(None,), dtype=tf.int64),
})

視覚化

  • 引用
@inproceedings{DBLP:conf/nips/HuFZDRLCL20,
  author    = {Weihua Hu and
               Matthias Fey and
               Marinka Zitnik and
               Yuxiao Dong and
               Hongyu Ren and
               Bowen Liu and
               Michele Catasta and
               Jure Leskovec},
  editor    = {Hugo Larochelle and
               Marc Aurelio Ranzato and
               Raia Hadsell and
               Maria{-}Florina Balcan and
               Hsuan{-}Tien Lin},
  title     = {Open Graph Benchmark: Datasets for Machine Learning on Graphs},
  booktitle = {Advances in Neural Information Processing Systems 33: Annual Conference
               on Neural Information Processing Systems 2020, NeurIPS 2020, December
               6-12, 2020, virtual},
  year      = {2020},
  url       = {https://proceedings.neurips.cc/paper/2020/hash/fb60d411a5c5b72b2e7d3527cfc84fd0-Abstract.html},
  timestamp = {Tue, 19 Jan 2021 15:57:06 +0100},
  biburl    = {https://dblp.org/rec/conf/nips/HuFZDRLCL20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}