ช่วยปกป้อง Great Barrier Reef กับ TensorFlow บน Kaggle เข้าร่วมท้าทาย

โปรตีน_net

  • รายละเอียด:

ProteinNet เป็นชุดข้อมูลมาตรฐานสำหรับการเรียนรู้ด้วยเครื่องของโครงสร้างโปรตีน มีลำดับโปรตีน โครงสร้าง (ระดับรองและระดับอุดมศึกษา) การจัดตำแหน่งหลายลำดับ (MSA) เมทริกซ์การให้คะแนนเฉพาะตำแหน่ง (PSSM) และการแยกการฝึก/การตรวจสอบ/การทดสอบที่ได้มาตรฐาน ProteinNet สร้างขึ้นจากการประเมิน CASP ทุกสองปี ซึ่งดำเนินการคาดการณ์แบบคนตาบอดของโครงสร้างโปรตีนที่แก้ไขล่าสุดแต่ไม่เปิดเผยต่อสาธารณะ เพื่อจัดเตรียมชุดทดสอบที่ผลักดันขอบเขตของวิธีการคำนวณ จัดเป็นชุดของชุดข้อมูลตั้งแต่ CASP 7 ถึง 12 (ครอบคลุมระยะเวลา 10 ปี) เพื่อจัดเตรียมชุดข้อมูลขนาดต่างๆ ที่ช่วยให้สามารถประเมินวิธีการใหม่ๆ ในระบบที่มีข้อมูลค่อนข้างต่ำและเต็มไปด้วยข้อมูล

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=tf.float32),
    'id': Text(shape=(), dtype=tf.string),
    'length': tf.int32,
    'mask': Tensor(shape=(None,), dtype=tf.bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=tf.float32),
})
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('primary', 'tertiary')

  • รูป ( tfds.show_examples ): ไม่ได้รับการสนับสนุน

  • อ้างอิง:

@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

protein_net/casp7 (การกำหนดค่าเริ่มต้น)

  • ขนาดการดาวน์โหลด: 3.18 GiB

  • ขนาดชุด: 2.53 GiB

  • แยก:

แยก ตัวอย่าง
'test' 93
'train_100' 34,557
'train_30' 10,333
'train_50' 13,024
'train_70' 15,207
'train_90' 17,611
'train_95' 17,938
'validation' 224

โปรตีน_net/casp8

  • ขนาดการดาวน์โหลด: 4.96 GiB

  • ขนาดชุด: 3.55 GiB

  • แยก:

แยก ตัวอย่าง
'test' 120
'train_100' 48,087
'train_30' 13,881
'train_50' 17,970
'train_70' 21,191
'train_90' 24,556
'train_95' 25,035
'validation' 224

โปรตีน_net/casp9

  • ขนาดการดาวน์โหลด: 6.65 GiB

  • ขนาดชุด: 4.54 GiB

  • แยก:

แยก ตัวอย่าง
'test' 116
'train_100' 60,350
'train_30' 16,973
'train_50' 22,172
'train_70' 26,263
'train_90' 30,513
'train_95' 31,128
'validation' 224

โปรตีน_net/casp10

  • ขนาดการดาวน์โหลด: 8.65 GiB

  • ขนาดชุด: 5.57 GiB

  • แยก:

แยก ตัวอย่าง
'test' 95
'train_100' 73,116
'train_30' 19,495
'train_50' 25,897
'train_70' 31,001
'train_90' 36,258
'train_95' 37,033
'validation' 224

โปรตีน_net/casp11

  • ขนาดการดาวน์โหลด: 10.81 GiB

  • ขนาดชุด: 6.72 GiB

  • แยก:

แยก ตัวอย่าง
'test' 81
'train_100' 87,573
'train_30' 22,344
'train_50' 29,936
'train_70' 36,005
'train_90' 42,507
'train_95' 43,544
'validation' 224

โปรตีน_net/casp12

  • ขนาดการดาวน์โหลด: 13.18 GiB

  • ขนาดชุด: 8.05 GiB

  • แยก:

แยก ตัวอย่าง
'test' 40
'train_100' 104,059
'train_30' 25,299
'train_50' 34,039
'train_70' 41,522
'train_90' 49,600
'train_95' 50,914
'validation' 224