cardiotox

  • Descripción :

El conjunto de datos de cardiotoxicidad de fármacos [1-2] es una tarea de clasificación de moléculas para detectar la cardiotoxicidad causada por la unión del objetivo hERG, una proteína asociada con el ritmo cardíaco. Los datos cubren más de 9000 moléculas con actividad hERG.

  1. Los datos se dividen en cuatro divisiones: tren, test-iid, test-ood1, test-ood2.

  2. Cada molécula en el conjunto de datos tiene anotaciones gráficas 2D que están diseñadas para facilitar el modelado de redes neuronales gráficas. Los nodos son los átomos de la molécula y los bordes son los enlaces. Cada átomo se representa como un vector que codifica información básica del átomo, como el tipo de átomo. Una lógica similar se aplica a los bonos.

  3. Incluimos la distancia de la huella dactilar de Tanimoto (a los datos de entrenamiento) para cada molécula en los conjuntos de prueba para facilitar la investigación sobre el cambio de distribución en el dominio gráfico.

Para cada ejemplo, las características incluyen: átomos: un tensor 2D con forma (60, 27) que almacena características de nodo. Las moléculas con menos de 60 átomos se rellenan con ceros. Cada átomo tiene 27 características atómicas. pares: un tensor 3D con forma (60, 60, 12) que almacena características de borde. Cada borde tiene 12 características de borde. atom_mask: un tensor 1D con forma (60, ) que almacena máscaras de nodo. 1 indica que el átomo correspondiente es real, de lo contrario, uno acolchado. pair_mask: un tensor 2D con forma (60, 60) que almacena máscaras de borde. 1 indica que el borde correspondiente es real, de lo contrario acolchado. activo: un vector caliente que indica si la molécula es tóxica o no. [0, 1] indica que es tóxico, de lo contrario [1, 0] no tóxico.

Referencias

[1]: VB Siramshetty et al. Evaluación crítica de los métodos de inteligencia artificial para la predicción de la inhibición del canal hERG en la era de los grandes datos. JCIM, 2020. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884

[2]: K. Han et al. Redes neuronales gráficas confiables para el descubrimiento de fármacos bajo el cambio de distribución. Taller NeurIPS DistShift 2021. https://arxiv.org/abs/2111.12951

Separar Ejemplos
'test' 839
'test2' 177
'train' 6,523
'validation' 1,631
  • Estructura de características :
FeaturesDict({
    'active': Tensor(shape=(2,), dtype=tf.int64),
    'atom_mask': Tensor(shape=(60,), dtype=tf.float32),
    'atoms': Tensor(shape=(60, 27), dtype=tf.float32),
    'dist2topk_nbs': Tensor(shape=(1,), dtype=tf.float32),
    'molecule_id': tf.string,
    'pair_mask': Tensor(shape=(60, 60), dtype=tf.float32),
    'pairs': Tensor(shape=(60, 60, 12), dtype=tf.float32),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
activo Tensor (2,) tf.int64
atom_mask Tensor (60,) tf.float32
átomos Tensor (60, 27) tf.float32
dist2topk_nbs Tensor (1,) tf.float32
molécula_id Tensor tf.cadena
par_mascarilla Tensor (60, 60) tf.float32
pares Tensor (60, 60, 12) tf.float32
  • Cita :
@ARTICLE{Han2021-tu,
  title         = "Reliable Graph Neural Networks for Drug Discovery Under
                   Distributional Shift",
  author        = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
  month         =  nov,
  year          =  2021,
  archivePrefix = "arXiv",
  primaryClass  = "cs.LG",
  eprint        = "2111.12951"
}