protein_net

  • Açıklama:

ProteinNet, protein yapısının makine öğrenimi için standartlaştırılmış bir veri setidir. Protein dizileri, yapılar (ikincil ve üçüncül), çoklu dizi hizalamaları (MSA'lar), pozisyona özgü puanlama matrisleri (PSSM'ler) ve standartlaştırılmış eğitim / doğrulama / test bölmeleri sağlar. ProteinNet, hesaplama metodolojisinin sınırlarını zorlayan test setleri sağlamak için yakın zamanda çözülmüş ancak kamuya açık olmayan protein yapılarının kör tahminlerini yürüten iki yılda bir yapılan CASP değerlendirmeleri üzerine kuruludur. Göreceli olarak veri bakımından fakir ve veri bakımından zengin rejimlerde yeni yöntemlerin değerlendirilmesini sağlayan bir dizi veri kümesi boyutu sağlamak için CASP 7'den 12'ye kadar (on yıllık bir dönemi kapsayan) bir dizi veri kümesi olarak düzenlenmiştir.

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=tf.float32),
    'id': Text(shape=(), dtype=tf.string),
    'length': tf.int32,
    'mask': Tensor(shape=(None,), dtype=tf.bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=tf.float32),
})
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

protein_net/casp7 (varsayılan yapılandırma)

  • İndirme boyutu: 3.18 GiB

  • Veri kümesi boyutu: 2.53 GiB

  • Splits:

Bölmek Örnekler
'test' 93
'train_100' 34.557
'train_30' 10.333
'train_50' 13.024
'train_70' 15.207
'train_90' 17.611
'train_95' 17.938
'validation' 224

protein_net/casp8

  • İndirme boyutu: 4.96 GiB

  • Veri kümesi boyutu: 3.55 GiB

  • Splits:

Bölmek Örnekler
'test' 120
'train_100' 48.087
'train_30' 13.881
'train_50' 17.970
'train_70' 21.191
'train_90' 24.556
'train_95' 25.035
'validation' 224

protein_net/casp9

  • İndirme boyutu: 6.65 GiB

  • Veri kümesi boyutu: 4.54 GiB

  • Splits:

Bölmek Örnekler
'test' 116
'train_100' 60.350
'train_30' 16.973
'train_50' 22.172
'train_70' 26.263
'train_90' 30.513
'train_95' 31.128
'validation' 224

protein_net/casp10

  • İndirme boyutu: 8.65 GiB

  • Veri kümesi boyutu: 5.57 GiB

  • Splits:

Bölmek Örnekler
'test' 95
'train_100' 73,116
'train_30' 19.495
'train_50' 25.897
'train_70' 31,001
'train_90' 36.258
'train_95' 37.033
'validation' 224

protein_net/casp11

  • İndirme boyutu: 10.81 GiB

  • Veri kümesi boyutu: 6.72 GiB

  • Splits:

Bölmek Örnekler
'test' 81
'train_100' 87.573
'train_30' 22.344
'train_50' 29.936
'train_70' 36,005
'train_90' 42.507
'train_95' 43,544
'validation' 224

protein_net/casp12

  • İndirme boyutu: 13.18 GiB

  • Veri kümesi boyutu: 8.05 GiB

  • Splits:

Bölmek Örnekler
'test' 40
'train_100' 104.059
'train_30' 25.299
'train_50' 34.039
'train_70' 41.522
'train_90' 49.600
'train_95' 50.914
'validation' 224