- תיאור :
ProteinNet הוא מערך נתונים סטנדרטי ללמידת מכונה של מבנה חלבון. הוא מספק רצפי חלבון, מבנים (משניים ושלישוניים), יישור רצף מרובים (MSA), מטריצות ניקוד ספציפיות למיקום (PSSMs), והדרכה / אימות / פיצולי מבחן סטנדרטיים. ProteinNet מתבססת על הערכות CASP הדו-שנתיות, המבצעות תחזיות עיוורות של מבני חלבון שנפתרו לאחרונה אך לא זמינים לציבור, כדי לספק ערכות בדיקה שדוחפות את גבולות המתודולוגיה החישובית. הוא מאורגן כסדרה של מערכי נתונים, המשתרעים על פני CASP 7 עד 12 (המכסים תקופה של עשר שנים), כדי לספק מגוון גדלים של מערכי נתונים המאפשרים הערכה של שיטות חדשות במשטרים דלים יחסית בנתונים ועתירי נתונים.
קוד מקור :
tfds.datasets.protein_net.Builder
גרסאות :
-
1.0.0
(ברירת מחדל): שחרור ראשוני.
-
שמירה אוטומטית במטמון ( תיעוד ): לא
מבנה תכונה :
FeaturesDict({
'evolutionary': Tensor(shape=(None, 21), dtype=float32),
'id': Text(shape=(), dtype=string),
'length': int32,
'mask': Tensor(shape=(None,), dtype=bool),
'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
אֵבוֹלוּצִיוֹנִי | מוֹתֵחַ | (אין, 21) | לצוף32 | |
תְעוּדַת זֶהוּת | טֶקסט | חוּט | ||
אורך | מוֹתֵחַ | int32 | ||
מסכה | מוֹתֵחַ | (אף אחד,) | bool | |
יְסוֹדִי | Sequence (ClassLabel) | (אף אחד,) | int64 | |
שלישי | מוֹתֵחַ | (אין, 3) | לצוף32 |
מפתחות בפיקוח (ראה
as_supervised
doc ):('primary', 'tertiary')
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}
protein_net/casp7 (תצורת ברירת המחדל)
גודל הורדה :
3.18 GiB
גודל מערך נתונים :
2.53 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 93 |
'train_100' | 34,557 |
'train_30' | 10,333 |
'train_50' | 13,024 |
'train_70' | 15,207 |
'train_90' | 17,611 |
'train_95' | 17,938 |
'validation' | 224 |
- דוגמאות ( tfds.as_dataframe ):
protein_net/casp8
גודל הורדה :
4.96 GiB
גודל מערך נתונים :
3.55 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 120 |
'train_100' | 48,087 |
'train_30' | 13,881 |
'train_50' | 17,970 |
'train_70' | 21,191 |
'train_90' | 24,556 |
'train_95' | 25,035 |
'validation' | 224 |
- דוגמאות ( tfds.as_dataframe ):
protein_net/casp9
גודל הורדה :
6.65 GiB
גודל מערך נתונים :
4.54 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 116 |
'train_100' | 60,350 |
'train_30' | 16,973 |
'train_50' | 22,172 |
'train_70' | 26,263 |
'train_90' | 30,513 |
'train_95' | 31,128 |
'validation' | 224 |
- דוגמאות ( tfds.as_dataframe ):
protein_net/casp10
גודל הורדה :
8.65 GiB
גודל מערך נתונים :
5.57 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 95 |
'train_100' | 73,116 |
'train_30' | 19,495 |
'train_50' | 25,897 |
'train_70' | 31,001 |
'train_90' | 36,258 |
'train_95' | 37,033 |
'validation' | 224 |
- דוגמאות ( tfds.as_dataframe ):
protein_net/casp11
גודל הורדה :
10.81 GiB
גודל מערך נתונים :
6.72 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 81 |
'train_100' | 87,573 |
'train_30' | 22,344 |
'train_50' | 29,936 |
'train_70' | 36,005 |
'train_90' | 42,507 |
'train_95' | 43,544 |
'validation' | 224 |
- דוגמאות ( tfds.as_dataframe ):
protein_net/casp12
גודל הורדה :
13.18 GiB
גודל מערך נתונים :
8.05 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 40 |
'train_100' | 104,059 |
'train_30' | 25,299 |
'train_50' | 34,039 |
'train_70' | 41,522 |
'train_90' | 49,600 |
'train_95' | 50,914 |
'validation' | 224 |
- דוגמאות ( tfds.as_dataframe ):