protein_net

  • Mô tả :

ProteinNet là một bộ dữ liệu được tiêu chuẩn hóa để máy học cấu trúc protein. Nó cung cấp các trình tự protein, cấu trúc (thứ cấp và thứ ba), sắp xếp nhiều trình tự (MSA), ma trận tính điểm cụ thể theo vị trí (PSSM) và phân tách đào tạo/xác nhận/kiểm tra được tiêu chuẩn hóa. ProteinNet xây dựng dựa trên các đánh giá CASP hai năm một lần, thực hiện các dự đoán mù quáng về các cấu trúc protein đã được giải quyết gần đây nhưng không có sẵn công khai, để cung cấp các bộ thử nghiệm thúc đẩy các giới hạn của phương pháp tính toán. Nó được tổ chức dưới dạng một loạt các tập dữ liệu, kéo dài từ CASP 7 đến 12 (bao gồm khoảng thời gian 10 năm), để cung cấp một loạt các kích thước tập dữ liệu cho phép đánh giá các phương pháp mới trong chế độ dữ liệu tương đối nghèo và dữ liệu phong phú.

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'length': int32,
    'mask': Tensor(shape=(None,), dtype=bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
tiến hóa tenxơ (Không có, 21) phao32
Tôi Chữ sợi dây
chiều dài tenxơ int32
mặt nạ tenxơ (Không có,) bool
sơ đẳng Trình tự (Nhãn lớp) (Không có,) int64
cấp ba tenxơ (Không, 3) phao32
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

protein_net/casp7 (cấu hình mặc định)

  • Kích thước tải xuống : 3.18 GiB

  • Kích thước tập dữ liệu : 2.53 GiB

  • Chia tách :

Tách ra ví dụ
'test' 93
'train_100' 34,557
'train_30' 10,333
'train_50' 13,024
'train_70' 15,207
'train_90' 17,611
'train_95' 17,938
'validation' 224

protein_net/casp8

  • Kích thước tải xuống : 4.96 GiB

  • Kích thước tập dữ liệu : 3.55 GiB

  • Chia tách :

Tách ra ví dụ
'test' 120
'train_100' 48,087
'train_30' 13,881
'train_50' 17.970
'train_70' 21,191
'train_90' 24,556
'train_95' 25,035
'validation' 224

protein_net/casp9

  • Kích thước tải xuống : 6.65 GiB

  • Kích thước tập dữ liệu : 4.54 GiB

  • Chia tách :

Tách ra ví dụ
'test' 116
'train_100' 60.350
'train_30' 16,973
'train_50' 22,172
'train_70' 26,263
'train_90' 30,513
'train_95' 31,128
'validation' 224

protein_net/casp10

  • Kích thước tải xuống : 8.65 GiB

  • Kích thước tập dữ liệu : 5.57 GiB

  • Chia tách :

Tách ra ví dụ
'test' 95
'train_100' 73,116
'train_30' 19,495
'train_50' 25,897
'train_70' 31,001
'train_90' 36,258
'train_95' 37,033
'validation' 224

protein_net/casp11

  • Kích thước tải xuống : 10.81 GiB

  • Kích thước tập dữ liệu : 6.72 GiB

  • Chia tách :

Tách ra ví dụ
'test' 81
'train_100' 87,573
'train_30' 22,344
'train_50' 29,936
'train_70' 36,005
'train_90' 42,507
'train_95' 43,544
'validation' 224

protein_net/casp12

  • Kích thước tải xuống : 13.18 GiB

  • Kích thước tập dữ liệu : 8.05 GiB

  • Chia tách :

Tách ra ví dụ
'test' 40
'train_100' 104,059
'train_30' 25,299
'train_50' 34,039
'train_70' 41,522
'train_90' 49.600
'train_95' 50,914
'validation' 224