Sintonize-se com as primeiras mulheres em ML Simpósio esta terça-feira 19 out às 9h PST Register now

protein_net

  • Descrição:

ProteinNet é um conjunto de dados padronizado para aprendizado de máquina da estrutura da proteína. Ele fornece sequências de proteínas, estruturas (secundárias e terciárias), alinhamentos de sequência múltipla (MSAs), matrizes de pontuação específicas de posição (PSSMs) e divisões de treinamento / validação / teste padronizadas. O ProteinNet se baseia nas avaliações CASP bienais, que realizam previsões cegas de estruturas de proteínas recentemente resolvidas, mas publicamente indisponíveis, para fornecer conjuntos de teste que ultrapassam as fronteiras da metodologia computacional. É organizado como uma série de conjuntos de dados, abrangendo CASP 7 a 12 (cobrindo um período de dez anos), para fornecer uma gama de tamanhos de conjuntos de dados que permitem a avaliação de novos métodos em regimes de dados relativamente pobres e ricos em dados.

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=tf.float32),
    'id': Text(shape=(), dtype=tf.string),
    'length': tf.int32,
    'mask': Tensor(shape=(None,), dtype=tf.bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=tf.float32),
})
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

protein_net / casp7 (configuração padrão)

  • Tamanho do download: 3.18 GiB

  • Tamanho do conjunto de dados: 2.53 GiB

  • desdobramentos:

Dividir Exemplos
'test' 93
'train_100' 34.557
'train_30' 10.333
'train_50' 13.024
'train_70' 15.207
'train_90' 17.611
'train_95' 17.938
'validation' 224

protein_net / casp8

  • Tamanho do download: 4.96 GiB

  • Tamanho do conjunto de dados: 3.55 GiB

  • desdobramentos:

Dividir Exemplos
'test' 120
'train_100' 48.087
'train_30' 13.881
'train_50' 17.970
'train_70' 21.191
'train_90' 24.556
'train_95' 25.035
'validation' 224

protein_net / casp9

  • Tamanho do download: 6.65 GiB

  • Tamanho do conjunto de dados: 4.54 GiB

  • desdobramentos:

Dividir Exemplos
'test' 116
'train_100' 60.350
'train_30' 16.973
'train_50' 22.172
'train_70' 26.263
'train_90' 30.513
'train_95' 31.128
'validation' 224

protein_net / casp10

  • Tamanho do download: 8.65 GiB

  • Tamanho do conjunto de dados: 5.57 GiB

  • desdobramentos:

Dividir Exemplos
'test' 95
'train_100' 73.116
'train_30' 19.495
'train_50' 25.897
'train_70' 31.001
'train_90' 36.258
'train_95' 37.033
'validation' 224

protein_net / casp11

  • Tamanho do download: 10.81 GiB

  • Tamanho do conjunto de dados: 6.72 GiB

  • desdobramentos:

Dividir Exemplos
'test' 81
'train_100' 87.573
'train_30' 22.344
'train_50' 29.936
'train_70' 36.005
'train_90' 42.507
'train_95' 43.544
'validation' 224

protein_net / casp12

  • Tamanho do download: 13.18 GiB

  • Tamanho do conjunto de dados: 8.05 GiB

  • desdobramentos:

Dividir Exemplos
'test' 40
'train_100' 104.059
'train_30' 25.299
'train_50' 34.039
'train_70' 41.522
'train_90' 49.600
'train_95' 50.914
'validation' 224