Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

białko_sieć

  • opis:

ProteinNet to ustandaryzowany zestaw danych do uczenia maszynowego struktury białek. Zapewnia sekwencje białek, struktury (drugorzędowe i trzeciorzędowe), dopasowania wielu sekwencji (MSA), macierze punktacji specyficznej dla pozycji (PSSM) oraz standaryzowane podziały treningowe / walidacyjne / testowe. ProteinNet opiera się na dwuletnich ocenach CASP, które przeprowadzają ślepe prognozy niedawno rozwiązanych, ale publicznie niedostępnych struktur białkowych, aby zapewnić zestawy testowe, które przesuwają granice metodologii obliczeniowej. Jest zorganizowany jako seria zestawów danych, obejmujących CASP od 7 do 12 (obejmujących okres dziesięciu lat), aby zapewnić szereg rozmiarów zestawów danych, które umożliwiają ocenę nowych metod w reżimach stosunkowo ubogich w dane i bogatych w dane.

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=tf.float32),
    'id': Text(shape=(), dtype=tf.string),
    'length': tf.int32,
    'mask': Tensor(shape=(None,), dtype=tf.bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=tf.float32),
})
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

protein_net/casp7 (konfiguracja domyślna)

  • Wielkość pliku: 3.18 GiB

  • Zestaw danych rozmiar: 2.53 GiB

  • dzieli:

Podział Przykłady
'test' 93
'train_100' 34 557
'train_30' 10333
'train_50' 13 024
'train_70' 15.207
'train_90' 17.611
'train_95' 17 938
'validation' 224

białko_sieć/casp8

  • Wielkość pliku: 4.96 GiB

  • Zbiór danych rozmiar: 3.55 GiB

  • dzieli:

Podział Przykłady
'test' 120
'train_100' 48 087
'train_30' 13 881
'train_50' 17.970
'train_70' 21 191
'train_90' 24 556
'train_95' 25 035
'validation' 224

białko_sieć/casp9

  • Wielkość pliku: 6.65 GiB

  • Zbiór danych rozmiar: 4.54 GiB

  • dzieli:

Podział Przykłady
'test' 116
'train_100' 60 350
'train_30' 16 973
'train_50' 22 172
'train_70' 26,263
'train_90' 30 513
'train_95' 31,128
'validation' 224

białko_sieć/casp10

  • Wielkość pliku: 8.65 GiB

  • Zbiór danych rozmiar: 5.57 GiB

  • dzieli:

Podział Przykłady
'test' 95
'train_100' 73 116
'train_30' 19 495
'train_50' 25,897
'train_70' 31,001
'train_90' 36 258
'train_95' 37033
'validation' 224

białko_sieć/casp11

  • Wielkość pliku: 10.81 GiB

  • Zestaw danych rozmiar: 6.72 GiB

  • dzieli:

Podział Przykłady
'test' 81
'train_100' 87 573
'train_30' 22 344
'train_50' 29 936
'train_70' 36,005
'train_90' 42 507
'train_95' 43 544
'validation' 224

białko_sieć/casp12

  • Wielkość pliku: 13.18 GiB

  • Zestaw danych rozmiar: 8.05 GiB

  • dzieli:

Podział Przykłady
'test' 40
'train_100' 104 059
'train_30' 25,299
'train_50' 34 039
'train_70' 41 522
'train_90' 49 600
'train_95' 50 914
'validation' 224