filet_protéine

  • Description:

ProteinNet est un ensemble de données standardisé pour l'apprentissage automatique de la structure des protéines. Il fournit des séquences de protéines, des structures (secondaires et tertiaires), des alignements de séquences multiples (MSA), des matrices de notation spécifiques à la position (PSSM) et des fractionnements de formation / validation / test standardisés. ProteinNet s'appuie sur les évaluations biennales du CASP, qui effectuent des prédictions aveugles de structures protéiques récemment résolues mais non disponibles publiquement, pour fournir des ensembles de tests qui repoussent les frontières de la méthodologie informatique. Il est organisé comme une série d'ensembles de données, couvrant les CASP 7 à 12 (couvrant une période de dix ans), pour fournir une gamme de tailles d'ensembles de données qui permettent l'évaluation de nouvelles méthodes dans des régimes relativement pauvres et riches en données.

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=tf.float32),
    'id': Text(shape=(), dtype=tf.string),
    'length': tf.int32,
    'mask': Tensor(shape=(None,), dtype=tf.bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=tf.float32),
})
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

protein_net/casp7 (configuration par défaut)

  • Taille du téléchargement: 3.18 GiB

  • Taille Dataset: 2.53 GiB

  • scissions:

Diviser Exemples
'test' 93
'train_100' 34 557
'train_30' 10 333
'train_50' 13 024
'train_70' 15 207
'train_90' 17 611
'train_95' 17 938
'validation' 224

filet_protéine/casp8

  • Taille du téléchargement: 4.96 GiB

  • Taille Dataset: 3.55 GiB

  • scissions:

Diviser Exemples
'test' 120
'train_100' 48 087
'train_30' 13 881
'train_50' 17 970
'train_70' 21 191
'train_90' 24 556
'train_95' 25 035
'validation' 224

filet_protéine/casp9

  • Taille du téléchargement: 6.65 GiB

  • Taille Dataset: 4.54 GiB

  • scissions:

Diviser Exemples
'test' 116
'train_100' 60 350
'train_30' 16 973
'train_50' 22 172
'train_70' 26 263
'train_90' 30 513
'train_95' 31,128
'validation' 224

filet_protéine/casp10

  • Taille du téléchargement: 8.65 GiB

  • Taille Dataset: 5.57 GiB

  • scissions:

Diviser Exemples
'test' 95
'train_100' 73 116
'train_30' 19 495
'train_50' 25 897
'train_70' 31 001
'train_90' 36 258
'train_95' 37 033
'validation' 224

filet_protéine/casp11

  • Taille du téléchargement: 10.81 GiB

  • Taille Dataset: 6.72 GiB

  • scissions:

Diviser Exemples
'test' 81
'train_100' 87 573
'train_30' 22 344
'train_50' 29 936
'train_70' 36 005
'train_90' 42 507
'train_95' 43 544
'validation' 224

filet_protéine/casp12

  • Taille du téléchargement: 13.18 GiB

  • Taille Dataset: 8.05 GiB

  • scissions:

Diviser Exemples
'test' 40
'train_100' 104 059
'train_30' 25 299
'train_50' 34 039
'train_70' 41 522
'train_90' 49 600
'train_95' 50 914
'validation' 224