protein_net

  • Descripción :

ProteinNet es un conjunto de datos estandarizados para el aprendizaje automático de la estructura de proteínas. Proporciona secuencias de proteínas, estructuras (secundarias y terciarias), alineamientos de secuencias múltiples (MSA), matrices de puntuación específicas de posición (PSSM) y divisiones estandarizadas de entrenamiento/validación/prueba. ProteinNet se basa en las evaluaciones CASP bienales, que llevan a cabo predicciones ciegas de estructuras de proteínas recientemente resueltas pero no disponibles públicamente, para proporcionar conjuntos de pruebas que amplían las fronteras de la metodología computacional. Está organizado como una serie de conjuntos de datos, que abarca CASP 7 a 12 (que cubre un período de diez años), para proporcionar una gama de tamaños de conjuntos de datos que permiten la evaluación de nuevos métodos en regímenes relativamente pobres y ricos en datos.

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'length': int32,
    'mask': Tensor(shape=(None,), dtype=bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
evolutivo Tensor (Ninguno, 21) flotar32
identificación Texto cadena
longitud Tensor int32
máscara Tensor (Ninguno,) bool
primario Secuencia (Etiqueta de clase) (Ninguno,) int64
terciario Tensor (Ninguno, 3) flotar32
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

protein_net/casp7 (configuración predeterminada)

  • Tamaño de descarga : 3.18 GiB

  • Tamaño del conjunto de datos : 2.53 GiB

  • Divisiones :

Separar Ejemplos
'test' 93
'train_100' 34,557
'train_30' 10,333
'train_50' 13,024
'train_70' 15,207
'train_90' 17,611
'train_95' 17,938
'validation' 224

protein_net/casp8

  • Tamaño de descarga : 4.96 GiB

  • Tamaño del conjunto de datos : 3.55 GiB

  • Divisiones :

Separar Ejemplos
'test' 120
'train_100' 48,087
'train_30' 13,881
'train_50' 17,970
'train_70' 21,191
'train_90' 24,556
'train_95' 25,035
'validation' 224

protein_net/casp9

  • Tamaño de descarga : 6.65 GiB

  • Tamaño del conjunto de datos : 4.54 GiB

  • Divisiones :

Separar Ejemplos
'test' 116
'train_100' 60,350
'train_30' 16,973
'train_50' 22,172
'train_70' 26,263
'train_90' 30,513
'train_95' 31,128
'validation' 224

protein_net/casp10

  • Tamaño de descarga : 8.65 GiB

  • Tamaño del conjunto de datos : 5.57 GiB

  • Divisiones :

Separar Ejemplos
'test' 95
'train_100' 73,116
'train_30' 19,495
'train_50' 25,897
'train_70' 31,001
'train_90' 36,258
'train_95' 37,033
'validation' 224

protein_net/casp11

  • Tamaño de descarga : 10.81 GiB

  • Tamaño del conjunto de datos : 6.72 GiB

  • Divisiones :

Separar Ejemplos
'test' 81
'train_100' 87,573
'train_30' 22,344
'train_50' 29,936
'train_70' 36,005
'train_90' 42,507
'train_95' 43,544
'validation' 224

protein_net/casp12

  • Tamaño de descarga : 13.18 GiB

  • Tamaño del conjunto de datos : 8.05 GiB

  • Divisiones :

Separar Ejemplos
'test' 40
'train_100' 104,059
'train_30' 25,299
'train_50' 34,039
'train_70' 41,522
'train_90' 49,600
'train_95' 50,914
'validation' 224