- תיאור:
ProteinNet היא מערך נתונים סטנדרטי ללימוד מכונה של מבנה החלבון. הוא מספק רצפי חלבון, מבנים (משניים ושלישי), יישור רצפים מרובים (MSA), מטריצות ניקוד ספציפיות למיקום (PSSM) ופיצול אימון / אימות / מבחן סטנדרטי. ProteinNet בונה על הערכות ה- CASP הדו -שנתיות, המבצעות תחזיות עיוורות של מבני חלבון שנפתרו אך לא זמינים לציבור, כדי לספק מערכי בדיקה הדוחפים את גבולות המתודולוגיה החישובית. הוא מאורגן כסדרה של מערכי נתונים, המשתרעים על CASP 7 עד 12 (המכסים תקופה של עשר שנים), כדי לספק מגוון גדלי מערכי נתונים המאפשרים הערכה של שיטות חדשות במשטרים דלים יחסית ועשירים בנתונים.
קוד מקור:
tfds.structured.proteinnet.ProteinNet
גרסאות:
-
1.0.0
(ברירת המחדל): מהדורה ראשונית.
-
Auto-במטמון ( תיעוד ): אין
מאפיינים:
FeaturesDict({
'evolutionary': Tensor(shape=(None, 21), dtype=tf.float32),
'id': Text(shape=(), dtype=tf.string),
'length': tf.int32,
'mask': Tensor(shape=(None,), dtype=tf.bool),
'primary': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=20)),
'tertiary': Tensor(shape=(None, 3), dtype=tf.float32),
})
מפתחות השגחה (ראה
as_supervised
doc ):('primary', 'tertiary')
איור ( tfds.show_examples ): לא נתמך.
ציטוט:
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}
protein_net/casp7 (תצורת ברירת מחדל)
גודל ההורדה:
3.18 GiB
גודל בסיס הנתונים:
2.53 GiB
פיצולים:
לְפַצֵל | דוגמאות |
---|---|
'test' | 93 |
'train_100' | 34,557 |
'train_30' | 10,333 |
'train_50' | 13,024 |
'train_70' | 15,207 |
'train_90' | 17,611 |
'train_95' | 17,938 |
'validation' | 224 |
- דוגמאות ( tfds.as_dataframe ):
protein_net/casp8
גודל ההורדה:
4.96 GiB
גודל בסיס הנתונים:
3.55 GiB
פיצולים:
לְפַצֵל | דוגמאות |
---|---|
'test' | 120 |
'train_100' | 48,087 |
'train_30' | 13,881 |
'train_50' | 17,970 |
'train_70' | 21,191 |
'train_90' | 24,556 |
'train_95' | 25,035 |
'validation' | 224 |
- דוגמאות ( tfds.as_dataframe ):
protein_net/casp9
גודל ההורדה:
6.65 GiB
גודל בסיס הנתונים:
4.54 GiB
פיצולים:
לְפַצֵל | דוגמאות |
---|---|
'test' | 116 |
'train_100' | 60,350 |
'train_30' | 16,973 |
'train_50' | 22,172 |
'train_70' | 26,263 |
'train_90' | 30,513 |
'train_95' | 31,128 |
'validation' | 224 |
- דוגמאות ( tfds.as_dataframe ):
protein_net/casp10
גודל ההורדה:
8.65 GiB
גודל בסיס הנתונים:
5.57 GiB
פיצולים:
לְפַצֵל | דוגמאות |
---|---|
'test' | 95 |
'train_100' | 73,116 |
'train_30' | 19,495 |
'train_50' | 25,897 |
'train_70' | 31,001 |
'train_90' | 36,258 |
'train_95' | 37,033 |
'validation' | 224 |
- דוגמאות ( tfds.as_dataframe ):
protein_net/casp11
גודל ההורדה:
10.81 GiB
גודל בסיס הנתונים:
6.72 GiB
פיצולים:
לְפַצֵל | דוגמאות |
---|---|
'test' | 81 |
'train_100' | 87,573 |
'train_30' | 22,344 |
'train_50' | 29,936 |
'train_70' | 36,005 |
'train_90' | 42,507 |
'train_95' | 43,544 |
'validation' | 224 |
- דוגמאות ( tfds.as_dataframe ):
protein_net/casp12
גודל ההורדה:
13.18 GiB
גודל בסיס הנתונים:
8.05 GiB
פיצולים:
לְפַצֵל | דוגמאות |
---|---|
'test' | 40 |
'train_100' | 104,059 |
'train_30' | 25,299 |
'train_50' | 34,039 |
'train_70' | 41,522 |
'train_90' | 49,600 |
'train_95' | 50,914 |
'validation' | 224 |
- דוגמאות ( tfds.as_dataframe ):