एमएल समुदाय दिवस 9 नवंबर है! TensorFlow, JAX से नई जानकारी के लिए हमसे जुड़ें, और अधिक जानें

प्रोटीन_नेट

  • विवरण:

प्रोटीननेट प्रोटीन संरचना की मशीन सीखने के लिए एक मानकीकृत डेटा सेट है। यह प्रोटीन अनुक्रम, संरचनाएं (माध्यमिक और तृतीयक), एकाधिक अनुक्रम संरेखण (एमएसए), स्थिति-विशिष्ट स्कोरिंग मैट्रिक्स (पीएसएसएम), और मानकीकृत प्रशिक्षण/सत्यापन/परीक्षण विभाजन प्रदान करता है। प्रोटीननेट द्विवार्षिक CASP आकलन पर बनाता है, जो कम्प्यूटेशनल कार्यप्रणाली की सीमाओं को आगे बढ़ाने वाले परीक्षण सेट प्रदान करने के लिए हाल ही में हल लेकिन सार्वजनिक रूप से अनुपलब्ध प्रोटीन संरचनाओं की अंधी भविष्यवाणी करता है। यह डेटा सेट की एक श्रृंखला के रूप में आयोजित किया जाता है, जो CASP 7 से 12 (दस साल की अवधि को कवर करते हुए) तक फैला हुआ है, ताकि डेटा सेट आकार की एक श्रृंखला प्रदान की जा सके जो अपेक्षाकृत डेटा खराब और डेटा समृद्ध व्यवस्था में नए तरीकों का आकलन करने में सक्षम हो।

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=tf.float32),
    'id': Text(shape=(), dtype=tf.string),
    'length': tf.int32,
    'mask': Tensor(shape=(None,), dtype=tf.bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=tf.float32),
})
  • पर्यवेक्षित कुंजियों (देखें as_supervised डॉक ): ('primary', 'tertiary')

  • चित्रा ( tfds.show_examples ): समर्थित नहीं।

  • प्रशस्ति पत्र:

@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

प्रोटीन_नेट/कैस्प7 (डिफ़ॉल्ट कॉन्फ़िग)

  • डाउनलोड का आकार: 3.18 GiB

  • डेटासेट का आकार: 2.53 GiB

  • विभाजन:

विभाजित करना उदाहरण
'test' ९३
'train_100' ३४,५५७
'train_30' १०,३३३
'train_50' १३,०२४
'train_70' 15,207
'train_90' १७,६११
'train_95' १७,९३८
'validation' 224

प्रोटीन_नेट/कैस्प8

  • डाउनलोड का आकार: 4.96 GiB

  • डेटासेट का आकार: 3.55 GiB

  • विभाजन:

विभाजित करना उदाहरण
'test' १२०
'train_100' 48,087
'train_30' १३,८८१
'train_50' १७,९७०
'train_70' २१,१९१
'train_90' २४,५५६
'train_95' २५,०३५
'validation' 224

प्रोटीन_नेट/कैस्प9

  • डाउनलोड का आकार: 6.65 GiB

  • डेटासेट का आकार: 4.54 GiB

  • विभाजन:

विभाजित करना उदाहरण
'test' ११६
'train_100' 60,350
'train_30' १६,९७३
'train_50' 22,172
'train_70' 26,263
'train_90' 30,513
'train_95' 31,128
'validation' 224

प्रोटीन_नेट/कैस्प10

  • डाउनलोड का आकार: 8.65 GiB

  • डेटासेट का आकार: 5.57 GiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 95
'train_100' 73,116
'train_30' 19,495
'train_50' २५,८९७
'train_70' 31,001
'train_90' 36,258
'train_95' 37,033
'validation' 224

प्रोटीन_नेट/कैस्प11

  • डाउनलोड का आकार: 10.81 GiB

  • डेटासेट का आकार: 6.72 GiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 81
'train_100' 87,573
'train_30' 22,344
'train_50' 29,936
'train_70' 36,005
'train_90' 42,507
'train_95' 43,544
'validation' 224

प्रोटीन_नेट/कैस्प12

  • डाउनलोड का आकार: 13.18 GiB

  • डेटासेट का आकार: 8.05 GiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 40
'train_100' 104,059
'train_30' २५,२९९
'train_50' 34,039
'train_70' 41,522
'train_90' 49,600
'train_95' 50,914
'validation' 224