Aprenda o que há de mais recente em aprendizado de máquina, IA generativa e muito mais no WiML Symposium 2023 Registre-se

Esta página foi traduzida pela API Cloud Translation.

ogbg_molpcba

Descrição :

'ogbg-molpcba' é um conjunto de dados moleculares amostrados do PubChem BioAssay. É um conjunto de dados de previsão de gráficos do Open Graph Benchmark (OGB).

Este conjunto de dados é experimental e a API está sujeita a alterações em versões futuras.

A descrição abaixo do conjunto de dados é adaptada do papel OGB:

Formato de entrada

Todas as moléculas são pré-processadas usando RDKit ([1]).

Cada gráfico representa uma molécula, onde os nós são átomos e as arestas são ligações químicas.
Os recursos do nó de entrada são de 9 dimensões, contendo número atômico e quiralidade, bem como outros recursos adicionais do átomo, como carga formal e se o átomo está no anel.
Os recursos de borda de entrada são tridimensionais, contendo tipo de ligação, estereoquímica de ligação, bem como um recurso de ligação adicional indicando se a ligação é conjugada.

A descrição exata de todos os recursos está disponível em https://github.com/snap-stanford/ogb/blob/master/ogb/utils/features.py

Predição

A tarefa é prever 128 atividades biológicas diferentes (inativo/ativo). Veja [2] e [3] para mais descrições sobre esses alvos. Nem todos os alvos se aplicam a cada molécula: os alvos ausentes são indicados por NaNs.

Referências

[1]: Greg Landrum, e outros. 'RDKit: quimioinformática de código aberto'. URL: https://github.com/rdkit/rdkit

[2]: Bharath Ramsundar, Steven Kearnes, Patrick Riley, Dale Webster, David Konerding e Vijay Pande. 'Redes massivamente multitarefa para descoberta de drogas'. URL: https://arxiv.org/pdf/1502.02072.pdf

[3]: Zhenqin Wu, Bharath Ramsundar, Evan N Feinberg, Joseph Gomes, Caleb Geniesse, Aneesh S. Pappu, Karl Leswing e Vijay Pande. MoleculeNet: uma referência para aprendizado de máquina molecular. Ciência Química, 9(2):513-530, 2018.

Página inicial : https://ogb.stanford.edu/docs/graphprop
Código -fonte: tfds.datasets.ogbg_molpcba.Builder
Versões :
- 0.1.0 : versão inicial da API experimental.
- 0.1.1 : Expõe explicitamente o número de arestas em cada grafo.
- 0.1.2 : Adicionar campo de metadados para GraphVisualizer.
- 0.1.3 (padrão): Adicionar campo de metadados para nomes de tarefas individuais.
Tamanho do download : 37.70 MiB
Tamanho do conjunto de dados : 822.53 MiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :

Dividir	Exemplos
`'test'`	43.793
`'train'`	350.343
`'validation'`	43.793

Estrutura de recursos :

FeaturesDict({
    'edge_feat': Tensor(shape=(None, 3), dtype=float32),
    'edge_index': Tensor(shape=(None, 2), dtype=int64),
    'labels': Tensor(shape=(128,), dtype=float32),
    'node_feat': Tensor(shape=(None, 9), dtype=float32),
    'num_edges': Tensor(shape=(None,), dtype=int64),
    'num_nodes': Tensor(shape=(None,), dtype=int64),
})

Documentação do recurso:

Recurso	Aula	Forma	Tipo D
	RecursosDict
edge_feat	tensor	(Nenhuma, 3)	float32
edge_index	tensor	(Nenhuma, 2)	int64
rótulos	tensor	(128,)	float32
node_feat	tensor	(Nenhuma, 9)	float32
num_edges	tensor	(Nenhum,)	int64
num_nodes	tensor	(Nenhum,)	int64

Chaves supervisionadas (Consulte as_supervised doc ): None
Figura ( tfds.show_examples ):

Visualização

Exemplos ( tfds.as_dataframe ):

Citação :

@inproceedings{DBLP:conf/nips/HuFZDRLCL20,
  author    = {Weihua Hu and
               Matthias Fey and
               Marinka Zitnik and
               Yuxiao Dong and
               Hongyu Ren and
               Bowen Liu and
               Michele Catasta and
               Jure Leskovec},
  editor    = {Hugo Larochelle and
               Marc Aurelio Ranzato and
               Raia Hadsell and
               Maria{-}Florina Balcan and
               Hsuan{-}Tien Lin},
  title     = {Open Graph Benchmark: Datasets for Machine Learning on Graphs},
  booktitle = {Advances in Neural Information Processing Systems 33: Annual Conference
               on Neural Information Processing Systems 2020, NeurIPS 2020, December
               6-12, 2020, virtual},
  year      = {2020},
  url       = {https://proceedings.neurips.cc/paper/2020/hash/fb60d411a5c5b72b2e7d3527cfc84fd0-Abstract.html},
  timestamp = {Tue, 19 Jan 2021 15:57:06 +0100},
  biburl    = {https://dblp.org/rec/conf/nips/HuFZDRLCL20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

ogbg_molpcba Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Formato de entrada

Predição

Referências

ogbg_molpcba