חלבון_נט

  • תיאור :

ProteinNet הוא מערך נתונים סטנדרטי ללמידת מכונה של מבנה חלבון. הוא מספק רצפי חלבון, מבנים (משניים ושלישוניים), יישור רצף מרובים (MSA), מטריצות ניקוד ספציפיות למיקום (PSSMs), והדרכה / אימות / פיצולי מבחן סטנדרטיים. ProteinNet מתבססת על הערכות CASP הדו-שנתיות, המבצעות תחזיות עיוורות של מבני חלבון שנפתרו לאחרונה אך לא זמינים לציבור, כדי לספק ערכות בדיקה שדוחפות את גבולות המתודולוגיה החישובית. הוא מאורגן כסדרה של מערכי נתונים, המשתרעים על פני CASP 7 עד 12 (המכסים תקופה של עשר שנים), כדי לספק מגוון גדלים של מערכי נתונים המאפשרים הערכה של שיטות חדשות במשטרים דלים יחסית בנתונים ועתירי נתונים.

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'length': int32,
    'mask': Tensor(shape=(None,), dtype=bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
אֵבוֹלוּצִיוֹנִי מוֹתֵחַ (אין, 21) לצוף32
תְעוּדַת זֶהוּת טֶקסט חוּט
אורך מוֹתֵחַ int32
מסכה מוֹתֵחַ (אף אחד,) bool
יְסוֹדִי Sequence (ClassLabel) (אף אחד,) int64
שלישי מוֹתֵחַ (אין, 3) לצוף32
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

protein_net/casp7 (תצורת ברירת המחדל)

  • גודל הורדה : 3.18 GiB

  • גודל מערך נתונים : 2.53 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 93
'train_100' 34,557
'train_30' 10,333
'train_50' 13,024
'train_70' 15,207
'train_90' 17,611
'train_95' 17,938
'validation' 224

protein_net/casp8

  • גודל הורדה : 4.96 GiB

  • גודל מערך נתונים : 3.55 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 120
'train_100' 48,087
'train_30' 13,881
'train_50' 17,970
'train_70' 21,191
'train_90' 24,556
'train_95' 25,035
'validation' 224

protein_net/casp9

  • גודל הורדה : 6.65 GiB

  • גודל מערך נתונים : 4.54 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 116
'train_100' 60,350
'train_30' 16,973
'train_50' 22,172
'train_70' 26,263
'train_90' 30,513
'train_95' 31,128
'validation' 224

protein_net/casp10

  • גודל הורדה : 8.65 GiB

  • גודל מערך נתונים : 5.57 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 95
'train_100' 73,116
'train_30' 19,495
'train_50' 25,897
'train_70' 31,001
'train_90' 36,258
'train_95' 37,033
'validation' 224

protein_net/casp11

  • גודל הורדה : 10.81 GiB

  • גודל מערך נתונים : 6.72 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 81
'train_100' 87,573
'train_30' 22,344
'train_50' 29,936
'train_70' 36,005
'train_90' 42,507
'train_95' 43,544
'validation' 224

protein_net/casp12

  • גודל הורדה : 13.18 GiB

  • גודל מערך נתונים : 8.05 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 40
'train_100' 104,059
'train_30' 25,299
'train_50' 34,039
'train_70' 41,522
'train_90' 49,600
'train_95' 50,914
'validation' 224