ogbg_molpcba

  • Açıklama:

'ogbg-molpcba', PubChem BioAssay'den örneklenen moleküler bir veri setidir. Open Graph Benchmark'tan (OGB) bir grafik tahmin veri setidir.

Bu veri kümesi deneyseldir ve API, gelecekteki sürümlerde değişikliğe tabidir.

Veri kümesinin aşağıdaki açıklaması OGB belgesinden uyarlanmıştır:

Giriş Formatı

Tüm moleküller RDKit ([1]) kullanılarak önceden işlenir.

  • Her grafik, düğümlerin atom ve kenarların kimyasal bağ olduğu bir molekülü temsil eder.
  • Giriş düğümü özellikleri, atom numarası ve kiralitenin yanı sıra formal yük ve atomun halkada olup olmadığı gibi diğer ek atom özelliklerini içeren 9 boyutludur.
  • Girdi kenar özellikleri, bağ tipini, bağ stereokimyasını ve ayrıca bağın konjuge olup olmadığını gösteren ek bir bağ özelliğini içeren 3 boyutludur.

Tüm özelliklerinden tam açıklama mevcuttur https://github.com/snap-stanford/ogb/blob/master/ogb/utils/features.py

Tahmin

Görev, 128 farklı biyolojik aktiviteyi (inaktif/aktif) tahmin etmektir. Bu hedefler hakkında daha fazla açıklama için [2] ve [3]'e bakın. Tüm hedefler her molekül için geçerli değildir: eksik hedefler NaN'lerle gösterilir.

Referanslar

[1]: Greg Landrum, et al. 'RDKit: Açık kaynaklı kimyasal bilişim'. URL: https://github.com/rdkit/rdkit

[2]: Bharath Ramsundar, Steven Kearnes, Patrick Riley, Dale Webster, David Konerding ve Vijay Pande. 'İlaç Keşfi için Devasa Çok Görevli Ağlar'. URL: https://arxiv.org/pdf/1502.02072.pdf

[3]: Zhenqin Wu, Bharath Ramsundar, Evan N Feinberg, Joseph Gomes, Caleb Geniesse, Aneesh S. Pappu, Karl Leswing ve Vijay Pande. MoleculeNet: moleküler makine öğrenimi için bir ölçüt. Kimya Bilimi, 9(2):513-530, 2018.

  • Anasayfa: https://ogb.stanford.edu/docs/graphprop

  • Kaynak kodu: tfds.graphs.ogbg_molpcba.OgbgMolpcba

  • sürümleri:

    • 0.1.0 Deneysel API ilk sürümü.
    • 0.1.1 : açıkça Her bir grafikte kenarların sayısını vücuduna.
    • 0.1.2 : GraphVisualizer için meta veri alan ekleyin.
    • 0.1.3 (varsayılan) : Bireysel görevlerin adlar için meta veri alan ekleyin.
  • İndirme boyutu: 37.70 MiB

  • Veri kümesi boyutu: 822.53 MiB

  • Otomatik önbelleğe ( dokümantasyon ): Hayır

  • Splits:

Bölmek Örnekler
'test' 43.793
'train' 350.343
'validation' 43.793
  • Özellikler:
FeaturesDict({
    'edge_feat': Tensor(shape=(None, 3), dtype=tf.float32),
    'edge_index': Tensor(shape=(None, 2), dtype=tf.int64),
    'labels': Tensor(shape=(128,), dtype=tf.float32),
    'node_feat': Tensor(shape=(None, 9), dtype=tf.float32),
    'num_edges': Tensor(shape=(None,), dtype=tf.int64),
    'num_nodes': Tensor(shape=(None,), dtype=tf.int64),
})

görselleştirme

  • Citation:
@inproceedings{DBLP:conf/nips/HuFZDRLCL20,
  author    = {Weihua Hu and
               Matthias Fey and
               Marinka Zitnik and
               Yuxiao Dong and
               Hongyu Ren and
               Bowen Liu and
               Michele Catasta and
               Jure Leskovec},
  editor    = {Hugo Larochelle and
               Marc Aurelio Ranzato and
               Raia Hadsell and
               Maria{-}Florina Balcan and
               Hsuan{-}Tien Lin},
  title     = {Open Graph Benchmark: Datasets for Machine Learning on Graphs},
  booktitle = {Advances in Neural Information Processing Systems 33: Annual Conference
               on Neural Information Processing Systems 2020, NeurIPS 2020, December
               6-12, 2020, virtual},
  year      = {2020},
  url       = {https://proceedings.neurips.cc/paper/2020/hash/fb60d411a5c5b72b2e7d3527cfc84fd0-Abstract.html},
  timestamp = {Tue, 19 Jan 2021 15:57:06 +0100},
  biburl    = {https://dblp.org/rec/conf/nips/HuFZDRLCL20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}