คำถามเกี่ยวกับ TFX? เข้าร่วมกับเราที่ Google I / O!

SchemaGen TFX Pipeline Component

คอมโพเนนต์ TFX บางตัวใช้คำอธิบายข้อมูลอินพุตของคุณที่เรียกว่า สคีมา สคีมาเป็นอินสแตนซ์ของ schema.proto สามารถระบุชนิดข้อมูลสำหรับค่าคุณลักษณะไม่ว่าจะต้องมีคุณลักษณะในตัวอย่างทั้งหมดช่วงค่าที่อนุญาตและคุณสมบัติอื่น ๆ ส่วนประกอบไปป์ไลน์ของ SchemaGen จะสร้างสคีมาโดยอัตโนมัติโดยอนุมานประเภทหมวดหมู่และช่วงจากข้อมูลการฝึกอบรม

  • ใช้: สถิติจากคอมโพเนนต์ StatisticsGen
  • Emits: โปรโตสคีมาข้อมูล

นี่คือข้อความที่ตัดตอนมาจากสคีมาโปรโต:

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

ไลบรารี TFX ต่อไปนี้ใช้สคีมา:

  • การตรวจสอบข้อมูล TensorFlow
  • การแปลง TensorFlow
  • การวิเคราะห์แบบจำลอง TensorFlow

ในท่อ TFX ทั่วไป SchemaGen จะสร้างสคีมาซึ่งใช้โดยส่วนประกอบไปป์ไลน์อื่น ๆ

SchemaGen และ TensorFlow Data Validation

SchemaGen ใช้ประโยชน์จาก TensorFlow Data Validation อย่างกว้างขวางสำหรับการอนุมานสคีมา

การใช้คอมโพเนนต์ SchemaGen

โดยทั่วไปแล้วส่วนประกอบไปป์ไลน์ของ SchemaGen นั้นง่ายมากในการปรับใช้และต้องการการปรับแต่งเพียงเล็กน้อย รหัสทั่วไปมีลักษณะดังนี้:

from tfx import components

...

infer_schema = components.SchemaGen(
    statistics=compute_training_stats.outputs['statistics'])