Google I/O — это обертка! Наверстать упущенное в сеансах TensorFlow Просмотреть сеансы

Protein_net

  • Описание:

ProteinNet - это стандартизированный набор данных для машинного обучения структуры белка. Он обеспечивает белковые последовательности, структуры (вторичные и третичные), множественное выравнивание последовательностей (MSA), оценочные матрицы для конкретных позиций (PSSM) и стандартизированные разделения для обучения / проверки / тестирования. ProteinNet основывается на проводимых раз в два года оценках CASP, которые выполняют слепые прогнозы недавно решенных, но публично недоступных белковых структур, чтобы предоставить наборы тестов, которые расширяют границы вычислительной методологии. Он организован в виде серии наборов данных, охватывающих CASP 7–12 (охватывающих десятилетний период), чтобы предоставить диапазон размеров наборов данных, которые позволяют оценивать новые методы в режимах с относительно низким и богатым данными.

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=tf.float32),
    'id': Text(shape=(), dtype=tf.string),
    'length': tf.int32,
    'mask': Tensor(shape=(None,), dtype=tf.bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=tf.float32),
})
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

Protein_net / casp7 (конфигурация по умолчанию)

  • Скачать Размер: 3.18 GiB

  • Dataset Размер: 2.53 GiB

  • расколы:

Расколоть Примеры
'test' 93
'train_100' 34 557
'train_30' 10 333
'train_50' 13 024
'train_70' 15 207
'train_90' 17 611
'train_95' 17 938
'validation' 224

Protein_net / casp8

  • Скачать Размер: 4.96 GiB

  • Dataset Размер: 3.55 GiB

  • расколы:

Расколоть Примеры
'test' 120
'train_100' 48 087
'train_30' 13 881
'train_50' 17 970
'train_70' 21 191
'train_90' 24 556
'train_95' 25 035
'validation' 224

Protein_net / casp9

  • Скачать Размер: 6.65 GiB

  • Dataset Размер: 4.54 GiB

  • расколы:

Расколоть Примеры
'test' 116
'train_100' 60 350
'train_30' 16 973
'train_50' 22 172
'train_70' 26 263
'train_90' 30 513
'train_95' 31 128
'validation' 224

Protein_net / casp10

  • Скачать Размер: 8.65 GiB

  • Dataset Размер: 5.57 GiB

  • расколы:

Расколоть Примеры
'test' 95
'train_100' 73 116
'train_30' 19 495
'train_50' 25 897
'train_70' 31 001
'train_90' 36 258
'train_95' 37 033
'validation' 224

Protein_net / casp11

  • Скачать Размер: 10.81 GiB

  • Dataset Размер: 6.72 GiB

  • расколы:

Расколоть Примеры
'test' 81 год
'train_100' 87 573
'train_30' 22 344
'train_50' 29 936
'train_70' 36 005
'train_90' 42 507
'train_95' 43 544
'validation' 224

Protein_net / casp12

  • Скачать Размер: 13.18 GiB

  • Dataset размер: 8.05 GiB

  • расколы:

Расколоть Примеры
'test' 40
'train_100' 104 059
'train_30' 25 299
'train_50' 34 039
'train_70' 41 522
'train_90' 49 600
'train_95' 50 914
'validation' 224