- Açıklama:
ProteinNet, protein yapısının makine öğrenimi için standartlaştırılmış bir veri setidir. Protein dizileri, yapılar (ikincil ve üçüncül), çoklu dizi hizalamaları (MSA'lar), pozisyona özgü puanlama matrisleri (PSSM'ler) ve standartlaştırılmış eğitim / doğrulama / test bölmeleri sağlar. ProteinNet, hesaplama metodolojisinin sınırlarını zorlayan test setleri sağlamak için yakın zamanda çözülmüş ancak kamuya açık olmayan protein yapılarının kör tahminlerini yürüten iki yılda bir yapılan CASP değerlendirmeleri üzerine kuruludur. Göreceli olarak veri bakımından fakir ve veri bakımından zengin rejimlerde yeni yöntemlerin değerlendirilmesini sağlayan bir dizi veri kümesi boyutu sağlamak için CASP 7'den 12'ye kadar (on yıllık bir dönemi kapsayan) bir dizi veri kümesi olarak düzenlenmiştir.
Kaynak kodu:
tfds.structured.proteinnet.ProteinNet
sürümleri:
-
1.0.0
(varsayılan): Başlangıç salım.
-
Otomatik önbelleğe ( dokümantasyon ): Hayır
Özellikler:
FeaturesDict({
'evolutionary': Tensor(shape=(None, 21), dtype=tf.float32),
'id': Text(shape=(), dtype=tf.string),
'length': tf.int32,
'mask': Tensor(shape=(None,), dtype=tf.bool),
'primary': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=20)),
'tertiary': Tensor(shape=(None, 3), dtype=tf.float32),
})
Denetimli tuşları (bakınız
as_supervised
doc ):('primary', 'tertiary')
Şekil ( tfds.show_examples ): desteklenmez.
Citation:
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}
protein_net/casp7 (varsayılan yapılandırma)
İndirme boyutu:
3.18 GiB
Veri kümesi boyutu:
2.53 GiB
Splits:
Bölmek | Örnekler |
---|---|
'test' | 93 |
'train_100' | 34.557 |
'train_30' | 10.333 |
'train_50' | 13.024 |
'train_70' | 15.207 |
'train_90' | 17.611 |
'train_95' | 17.938 |
'validation' | 224 |
- Örnekler ( tfds.as_dataframe ):
protein_net/casp8
İndirme boyutu:
4.96 GiB
Veri kümesi boyutu:
3.55 GiB
Splits:
Bölmek | Örnekler |
---|---|
'test' | 120 |
'train_100' | 48.087 |
'train_30' | 13.881 |
'train_50' | 17.970 |
'train_70' | 21.191 |
'train_90' | 24.556 |
'train_95' | 25.035 |
'validation' | 224 |
- Örnekler ( tfds.as_dataframe ):
protein_net/casp9
İndirme boyutu:
6.65 GiB
Veri kümesi boyutu:
4.54 GiB
Splits:
Bölmek | Örnekler |
---|---|
'test' | 116 |
'train_100' | 60.350 |
'train_30' | 16.973 |
'train_50' | 22.172 |
'train_70' | 26.263 |
'train_90' | 30.513 |
'train_95' | 31.128 |
'validation' | 224 |
- Örnekler ( tfds.as_dataframe ):
protein_net/casp10
İndirme boyutu:
8.65 GiB
Veri kümesi boyutu:
5.57 GiB
Splits:
Bölmek | Örnekler |
---|---|
'test' | 95 |
'train_100' | 73,116 |
'train_30' | 19.495 |
'train_50' | 25.897 |
'train_70' | 31,001 |
'train_90' | 36.258 |
'train_95' | 37.033 |
'validation' | 224 |
- Örnekler ( tfds.as_dataframe ):
protein_net/casp11
İndirme boyutu:
10.81 GiB
Veri kümesi boyutu:
6.72 GiB
Splits:
Bölmek | Örnekler |
---|---|
'test' | 81 |
'train_100' | 87.573 |
'train_30' | 22.344 |
'train_50' | 29.936 |
'train_70' | 36,005 |
'train_90' | 42.507 |
'train_95' | 43,544 |
'validation' | 224 |
- Örnekler ( tfds.as_dataframe ):
protein_net/casp12
İndirme boyutu:
13.18 GiB
Veri kümesi boyutu:
8.05 GiB
Splits:
Bölmek | Örnekler |
---|---|
'test' | 40 |
'train_100' | 104.059 |
'train_30' | 25.299 |
'train_50' | 34.039 |
'train_70' | 41.522 |
'train_90' | 49.600 |
'train_95' | 50.914 |
'validation' | 224 |
- Örnekler ( tfds.as_dataframe ):