cardiotox

Descripción :

El conjunto de datos de cardiotoxicidad de fármacos [1-2] es una tarea de clasificación de moléculas para detectar la cardiotoxicidad causada por la unión del objetivo hERG, una proteína asociada con el ritmo cardíaco. Los datos cubren más de 9000 moléculas con actividad hERG.

Los datos se dividen en cuatro divisiones: tren, test-iid, test-ood1, test-ood2.
Cada molécula en el conjunto de datos tiene anotaciones gráficas 2D que están diseñadas para facilitar el modelado de redes neuronales gráficas. Los nodos son los átomos de la molécula y los bordes son los enlaces. Cada átomo se representa como un vector que codifica información básica del átomo, como el tipo de átomo. Una lógica similar se aplica a los bonos.
Incluimos la distancia de la huella dactilar de Tanimoto (a los datos de entrenamiento) para cada molécula en los conjuntos de prueba para facilitar la investigación sobre el cambio de distribución en el dominio gráfico.

Para cada ejemplo, las características incluyen: átomos: un tensor 2D con forma (60, 27) que almacena características de nodo. Las moléculas con menos de 60 átomos se rellenan con ceros. Cada átomo tiene 27 características atómicas. pares: un tensor 3D con forma (60, 60, 12) que almacena características de borde. Cada borde tiene 12 características de borde. atom_mask: un tensor 1D con forma (60, ) que almacena máscaras de nodo. 1 indica que el átomo correspondiente es real, de lo contrario, uno acolchado. pair_mask: un tensor 2D con forma (60, 60) que almacena máscaras de borde. 1 indica que el borde correspondiente es real, de lo contrario acolchado. activo: un vector caliente que indica si la molécula es tóxica o no. [0, 1] indica que es tóxico, de lo contrario [1, 0] no tóxico.

Referencias

[1]: VB Siramshetty et al. Evaluación crítica de los métodos de inteligencia artificial para la predicción de la inhibición del canal hERG en la era de los grandes datos. JCIM, 2020. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884

[2]: K. Han et al. Redes neuronales gráficas confiables para el descubrimiento de fármacos bajo el cambio de distribución. Taller NeurIPS DistShift 2021. https://arxiv.org/abs/2111.12951

Página de inicio : https://github.com/google/uncertainty-baselines/tree/main/baselines/drug_cardiotoxicity
Código fuente : tfds.graphs.cardiotox.Cardiotox
Versiones :
- 1.0.0 (predeterminado): versión inicial.
Tamaño de descarga : Unknown size
Tamaño del conjunto de datos : 1.66 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :

Separar	Ejemplos
`'test'`	839
`'test2'`	177
`'train'`	6,523
`'validation'`	1,631

Estructura de características :

FeaturesDict({
    'active': Tensor(shape=(2,), dtype=int64),
    'atom_mask': Tensor(shape=(60,), dtype=float32),
    'atoms': Tensor(shape=(60, 27), dtype=float32),
    'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
    'molecule_id': string,
    'pair_mask': Tensor(shape=(60, 60), dtype=float32),
    'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
activo	Tensor	(2,)	int64
atom_mask	Tensor	(60,)	flotar32
átomos	Tensor	(60, 27)	flotar32
dist2topk_nbs	Tensor	(1,)	flotar32
molécula_id	Tensor		cuerda
par_mascarilla	Tensor	(60, 60)	flotar32
parejas	Tensor	(60, 60, 12)	flotar32

Claves supervisadas (Ver as_supervised doc ): None
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):

Cita :

@ARTICLE{Han2021-tu,
  title         = "Reliable Graph Neural Networks for Drug Discovery Under
                   Distributional Shift",
  author        = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
  month         =  nov,
  year          =  2021,
  archivePrefix = "arXiv",
  primaryClass  = "cs.LG",
  eprint        = "2111.12951"
}

cardiotox Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Referencias

cardiotox