ogbg_molpcba

  • 설명 :

'ogbg-molpcba'는 PubChem BioAssay에서 샘플링한 분자 데이터 세트입니다. OGB(Open Graph Benchmark)의 그래프 예측 데이터 세트입니다.

이 데이터 세트는 실험적이며 API는 향후 릴리스에서 변경될 수 있습니다.

데이터 세트에 대한 아래 설명은 OGB 논문에서 채택되었습니다.

입력 형식

모든 분자는 RDKit([1])을 사용하여 사전 처리됩니다.

  • 각 그래프는 노드가 원자이고 가장자리가 화학 결합인 분자를 나타냅니다.
  • 입력 노드 기능은 원자 번호와 키랄성을 포함하는 9차원이며 형식 전하 및 원자가 고리에 있는지 여부와 같은 기타 추가 원자 기능을 포함합니다.
  • 입력 에지 피처는 결합 유형, 결합 입체화학 및 결합이 공액인지 여부를 나타내는 추가 결합 피처를 포함하는 3차원입니다.

모든 기능에 대한 정확한 설명은 https://github.com/snap-stanford/ogb/blob/master/ogb/utils/features.py 에서 확인할 수 있습니다.

예측

이 작업은 128개의 서로 다른 생물학적 활동(비활성/활성)을 예측하는 것입니다. 이러한 대상에 대한 자세한 설명은 [2] 및 [3]을 참조하십시오. 모든 대상이 각 분자에 적용되는 것은 아닙니다. 누락된 대상은 NaN으로 표시됩니다.

참조

[1]: Greg Landrum, 외. 'RDKit: 오픈 소스 화학포매틱스'. URL: https://github.com/rdkit/rdkit

[2]: Bharath Ramsundar, Steven Kearnes, Patrick Riley, Dale Webster, David Konerding 및 Vijay Pande. '신약 발견을 위한 대규모 멀티태스킹 네트워크'. URL: https://arxiv.org/pdf/1502.02072.pdf

[3]: Zhenqin Wu, Bharath Ramsundar, Evan N Feinberg, Joseph Gomes, Caleb Geniesse, Aneesh S. Pappu, Karl Leswing 및 Vijay Pande. MoleculeNet: 분자 기계 학습을 위한 벤치마크입니다. 화학과학, 9(2):513-530, 2018.

  • 홈페이지 : https://ogb.stanford.edu/docs/graphprop

  • 소스 코드 : tfds.datasets.ogbg_molpcba.Builder

  • 버전 :

    • 0.1.0 : 실험적 API의 최초 릴리스.
    • 0.1.1 : 각 그래프의 간선 수를 명시적으로 노출합니다.
    • 0.1.2 : GraphVisualizer에 대한 메타데이터 필드를 추가합니다.
    • 0.1.3 (기본값): 개별 작업 이름에 대한 메타데이터 필드를 추가합니다.
  • 다운로드 크기 : 37.70 MiB

  • 데이터 세트 크기 : 822.53 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 43,793
'train' 350,343
'validation' 43,793
  • 기능 구조 :
FeaturesDict({
    'edge_feat': Tensor(shape=(None, 3), dtype=float32),
    'edge_index': Tensor(shape=(None, 2), dtype=int64),
    'labels': Tensor(shape=(128,), dtype=float32),
    'node_feat': Tensor(shape=(None, 9), dtype=float32),
    'num_edges': Tensor(shape=(None,), dtype=int64),
    'num_nodes': Tensor(shape=(None,), dtype=int64),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
edge_feat 텐서 (없음, 3) float32
edge_index 텐서 (없음, 2) int64
레이블 텐서 (128,) float32
node_feat 텐서 (없음, 9) float32
num_edges 텐서 (없음,) int64
num_nodes 텐서 (없음,) int64

심상

  • 인용 :
@inproceedings{DBLP:conf/nips/HuFZDRLCL20,
  author    = {Weihua Hu and
               Matthias Fey and
               Marinka Zitnik and
               Yuxiao Dong and
               Hongyu Ren and
               Bowen Liu and
               Michele Catasta and
               Jure Leskovec},
  editor    = {Hugo Larochelle and
               Marc Aurelio Ranzato and
               Raia Hadsell and
               Maria{-}Florina Balcan and
               Hsuan{-}Tien Lin},
  title     = {Open Graph Benchmark: Datasets for Machine Learning on Graphs},
  booktitle = {Advances in Neural Information Processing Systems 33: Annual Conference
               on Neural Information Processing Systems 2020, NeurIPS 2020, December
               6-12, 2020, virtual},
  year      = {2020},
  url       = {https://proceedings.neurips.cc/paper/2020/hash/fb60d411a5c5b72b2e7d3527cfc84fd0-Abstract.html},
  timestamp = {Tue, 19 Jan 2021 15:57:06 +0100},
  biburl    = {https://dblp.org/rec/conf/nips/HuFZDRLCL20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}