protein_net

  • Deskripsi :

ProteinNet adalah kumpulan data standar untuk pembelajaran mesin struktur protein. Ini menyediakan urutan protein, struktur (sekunder dan tersier), multiple sequence alignments (MSA), matriks penilaian posisi-spesifik (PSSM), dan pemisahan pelatihan / validasi / pengujian standar. ProteinNet dibangun di atas penilaian CASP dua tahunan, yang melakukan prediksi buta dari struktur protein yang baru saja dipecahkan tetapi tidak tersedia untuk umum, untuk menyediakan rangkaian pengujian yang mendorong batas metodologi komputasi. Ini diatur sebagai serangkaian kumpulan data, yang mencakup CASP 7 hingga 12 (mencakup periode sepuluh tahun), untuk menyediakan berbagai ukuran kumpulan data yang memungkinkan penilaian metode baru dalam rezim data yang relatif miskin dan kaya data.

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'length': int32,
    'mask': Tensor(shape=(None,), dtype=bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
evolusioner Tensor (Tidak ada, 21) float32
Indo Teks rangkaian
panjangnya Tensor int32
masker Tensor (Tidak ada,) bool
utama Urutan(Label Kelas) (Tidak ada,) int64
tersier Tensor (Tidak ada, 3) float32
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

protein_net/casp7 (konfigurasi default)

  • Ukuran unduhan : 3.18 GiB

  • Ukuran dataset : 2.53 GiB

  • Perpecahan :

Membelah Contoh
'test' 93
'train_100' 34.557
'train_30' 10.333
'train_50' 13.024
'train_70' 15.207
'train_90' 17.611
'train_95' 17.938
'validation' 224

protein_net/casp8

  • Ukuran unduhan : 4.96 GiB

  • Ukuran dataset : 3.55 GiB

  • Perpecahan :

Membelah Contoh
'test' 120
'train_100' 48.087
'train_30' 13.881
'train_50' 17.970
'train_70' 21.191
'train_90' 24.556
'train_95' 25.035
'validation' 224

protein_net/casp9

  • Ukuran unduhan : 6.65 GiB

  • Ukuran dataset : 4.54 GiB

  • Perpecahan :

Membelah Contoh
'test' 116
'train_100' 60.350
'train_30' 16.973
'train_50' 22.172
'train_70' 26.263
'train_90' 30.513
'train_95' 31.128
'validation' 224

protein_net/casp10

  • Ukuran unduhan : 8.65 GiB

  • Ukuran dataset : 5.57 GiB

  • Perpecahan :

Membelah Contoh
'test' 95
'train_100' 73.116
'train_30' 19.495
'train_50' 25.897
'train_70' 31.001
'train_90' 36.258
'train_95' 37.033
'validation' 224

protein_net/casp11

  • Ukuran unduhan : 10.81 GiB

  • Ukuran dataset : 6.72 GiB

  • Perpecahan :

Membelah Contoh
'test' 81
'train_100' 87.573
'train_30' 22.344
'train_50' 29.936
'train_70' 36.005
'train_90' 42.507
'train_95' 43.544
'validation' 224

protein_net/casp12

  • Ukuran unduhan : 13.18 GiB

  • Ukuran dataset : 8.05 GiB

  • Perpecahan :

Membelah Contoh
'test' 40
'train_100' 104.059
'train_30' 25.299
'train_50' 34.039
'train_70' 41.522
'train_90' 49.600
'train_95' 50.914
'validation' 224