Ayuda a proteger la Gran Barrera de Coral con TensorFlow en Kaggle Únete Challenge

protein_net

  • Descripción:

ProteinNet es un conjunto de datos estandarizados para el aprendizaje automático de la estructura de las proteínas. Proporciona secuencias de proteínas, estructuras (secundarias y terciarias), alineaciones de secuencias múltiples (MSA), matrices de puntuación específicas de posición (PSSM) y divisiones estandarizadas de entrenamiento / validación / prueba. ProteinNet se basa en las evaluaciones CASP bienales, que realizan predicciones ciegas de estructuras proteicas recientemente resueltas pero no disponibles públicamente, para proporcionar conjuntos de pruebas que amplían las fronteras de la metodología computacional. Está organizado como una serie de conjuntos de datos, que abarcan CASP 7 a 12 (que cubren un período de diez años), para proporcionar una gama de tamaños de conjuntos de datos que permiten la evaluación de nuevos métodos en regímenes relativamente pobres y ricos en datos.

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=tf.float32),
    'id': Text(shape=(), dtype=tf.string),
    'length': tf.int32,
    'mask': Tensor(shape=(None,), dtype=tf.bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=tf.float32),
})
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

protein_net / casp7 (configuración predeterminada)

  • Tamaño del paquete: 3.18 GiB

  • Tamaño de conjunto de datos: 2.53 GiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 93
'train_100' 34,557
'train_30' 10,333
'train_50' 13,024
'train_70' 15,207
'train_90' 17,611
'train_95' 17,938
'validation' 224

protein_net / casp8

  • Tamaño del paquete: 4.96 GiB

  • Tamaño de conjunto de datos: 3.55 GiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 120
'train_100' 48.087
'train_30' 13,881
'train_50' 17,970
'train_70' 21,191
'train_90' 24,556
'train_95' 25,035
'validation' 224

protein_net / casp9

  • Tamaño del paquete: 6.65 GiB

  • Tamaño de conjunto de datos: 4.54 GiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 116
'train_100' 60,350
'train_30' 16,973
'train_50' 22,172
'train_70' 26,263
'train_90' 30,513
'train_95' 31,128
'validation' 224

protein_net / casp10

  • Tamaño del paquete: 8.65 GiB

  • Tamaño de conjunto de datos: 5.57 GiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 95
'train_100' 73,116
'train_30' 19,495
'train_50' 25.897
'train_70' 31,001
'train_90' 36,258
'train_95' 37.033
'validation' 224

protein_net / casp11

  • Tamaño del paquete: 10.81 GiB

  • Tamaño de conjunto de datos: 6.72 GiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 81
'train_100' 87,573
'train_30' 22,344
'train_50' 29,936
'train_70' 36,005
'train_90' 42,507
'train_95' 43,544
'validation' 224

protein_net / casp12

  • Tamaño del paquete: 13.18 GiB

  • Tamaño de conjunto de datos: 8.05 GiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 40
'train_100' 104,059
'train_30' 25,299
'train_50' 34,039
'train_70' 41.522
'train_90' 49,600
'train_95' 50,914
'validation' 224