بروتين_نيت

  • الوصف :

ProteinNet عبارة عن مجموعة بيانات موحدة للتعلم الآلي لبنية البروتين. يوفر تسلسل البروتين ، الهياكل (الثانوية والثالثية) ، محاذاة التسلسل المتعددة (MSAs) ، مصفوفات التسجيل الخاصة بالموقع (PSSMs) ، وتقسيمات التدريب / التحقق / الاختبار الموحدة. يعتمد موقع ProteinNet على تقييمات CASP التي تُجرى كل سنتين ، والتي تنفذ تنبؤات عمياء لهياكل البروتين التي تم حلها مؤخرًا ولكنها غير متاحة للجمهور ، لتوفير مجموعات اختبار تدفع حدود المنهجية الحسابية. وهي منظمة كسلسلة من مجموعات البيانات ، تمتد من 7 إلى 12 (تغطي فترة عشر سنوات) ، لتوفير مجموعة من أحجام مجموعات البيانات التي تمكن من تقييم الأساليب الجديدة في الأنظمة الفقيرة نسبيًا بالبيانات والغنية بالبيانات.

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'length': int32,
    'mask': Tensor(shape=(None,), dtype=bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
تطوري موتر (لا شيء ، 21) تعويم 32
هوية شخصية نص سلسلة
الطول موتر int32
قناع موتر (لا أحد،) منطقي
الأولية تسلسل (ClassLabel) (لا أحد،) int64
بعد الثانوي موتر (لا شيء ، 3) تعويم 32
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

protein_net / casp7 (التكوين الافتراضي)

  • حجم التحميل : 3.18 GiB

  • حجم مجموعة البيانات : 2.53 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 93
'train_100' 34557
'train_30' 10333
'train_50' 13024
'train_70' 15207
'train_90' 17،611
'train_95' 17،938
'validation' 224

بروتين_net / كاسبي 8

  • حجم التحميل : 4.96 GiB

  • حجم مجموعة البيانات : 3.55 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 120
'train_100' 48.087
'train_30' 13881
'train_50' 17،970
'train_70' 21191
'train_90' 24556
'train_95' 25،035
'validation' 224

بروتين_net / كاسبي 9

  • حجم التحميل : 6.65 GiB

  • حجم مجموعة البيانات : 4.54 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 116
'train_100' 60350
'train_30' 16973
'train_50' 22172
'train_70' 26263
'train_90' 30.513
'train_95' 31128
'validation' 224

بروتين_net / الكاسب 10

  • حجم التحميل : ٨ ٫ 8.65 GiB

  • حجم مجموعة البيانات : 5.57 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 95
'train_100' 73116
'train_30' 19495
'train_50' 25897
'train_70' 31،001
'train_90' 36258
'train_95' 37،033
'validation' 224

بروتين_net / الكاسب 11

  • حجم التحميل : 10.81 GiB

  • حجم مجموعة البيانات : 6.72 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 81
'train_100' 87573
'train_30' 22344
'train_50' 29936
'train_70' 36،005
'train_90' 42507
'train_95' 43544
'validation' 224

بروتين_net / الكاسب 12

  • حجم التحميل : 13.18 GiB

  • حجم مجموعة البيانات : 8.05 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 40
'train_100' 104.059
'train_30' 25299
'train_50' 34،039
'train_70' 41.522
'train_90' 49600
'train_95' 50914
'validation' 224