protein_net

  • Descrição :

ProteinNet é um conjunto de dados padronizado para aprendizado de máquina da estrutura da proteína. Ele fornece sequências de proteínas, estruturas (secundárias e terciárias), alinhamentos de sequência múltipla (MSAs), matrizes de pontuação específicas de posição (PSSMs) e divisões padronizadas de treinamento/validação/teste. O ProteinNet baseia-se nas avaliações CASP bienais, que realizam previsões cegas de estruturas de proteínas recentemente resolvidas, mas publicamente indisponíveis, para fornecer conjuntos de testes que ultrapassam as fronteiras da metodologia computacional. Ele é organizado como uma série de conjuntos de dados, abrangendo CASP 7 a 12 (cobrindo um período de dez anos), para fornecer uma variedade de tamanhos de conjuntos de dados que permitem a avaliação de novos métodos em regimes relativamente pobres e ricos em dados.

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'length': int32,
    'mask': Tensor(shape=(None,), dtype=bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
evolutivo tensor (Nenhuma, 21) float32
Eu iria Texto corda
comprimento tensor int32
mascarar tensor (Nenhum,) bool
primário Sequência(ClassLabel) (Nenhum,) int64
terciário tensor (Nenhuma, 3) float32
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

protein_net/casp7 (configuração padrão)

  • Tamanho do download : 3.18 GiB

  • Tamanho do conjunto de dados : 2.53 GiB

  • Divisões :

Dividir Exemplos
'test' 93
'train_100' 34.557
'train_30' 10.333
'train_50' 13.024
'train_70' 15.207
'train_90' 17.611
'train_95' 17.938
'validation' 224

protein_net/casp8

  • Tamanho do download : 4.96 GiB

  • Tamanho do conjunto de dados : 3.55 GiB

  • Divisões :

Dividir Exemplos
'test' 120
'train_100' 48.087
'train_30' 13.881
'train_50' 17.970
'train_70' 21.191
'train_90' 24.556
'train_95' 25.035
'validation' 224

protein_net/casp9

  • Tamanho do download : 6.65 GiB

  • Tamanho do conjunto de dados : 4.54 GiB

  • Divisões :

Dividir Exemplos
'test' 116
'train_100' 60.350
'train_30' 16.973
'train_50' 22.172
'train_70' 26.263
'train_90' 30.513
'train_95' 31.128
'validation' 224

protein_net/casp10

  • Tamanho do download : 8.65 GiB

  • Tamanho do conjunto de dados : 5.57 GiB

  • Divisões :

Dividir Exemplos
'test' 95
'train_100' 73.116
'train_30' 19.495
'train_50' 25.897
'train_70' 31.001
'train_90' 36.258
'train_95' 37.033
'validation' 224

protein_net/casp11

  • Tamanho do download : 10.81 GiB

  • Tamanho do conjunto de dados : 6.72 GiB

  • Divisões :

Dividir Exemplos
'test' 81
'train_100' 87.573
'train_30' 22.344
'train_50' 29.936
'train_70' 36.005
'train_90' 42.507
'train_95' 43.544
'validation' 224

protein_net/casp12

  • Tamanho do download : 13.18 GiB

  • Tamanho do conjunto de dados : 8.05 GiB

  • Divisões :

Dividir Exemplos
'test' 40
'train_100' 104.059
'train_30' 25.299
'train_50' 34.039
'train_70' 41.522
'train_90' 49.600
'train_95' 50.914
'validation' 224