คำถามเกี่ยวกับ TFX? เข้าร่วมกับเราที่ Google I / O!

SchemaGen TFX Pipeline Component

คอมโพเนนต์ TFX บางตัวใช้คำอธิบายข้อมูลอินพุตของคุณที่เรียกว่า สคีมา สคีมาเป็นอินสแตนซ์ของ schema.proto สามารถระบุชนิดข้อมูลสำหรับค่าคุณลักษณะไม่ว่าจะต้องมีคุณลักษณะในตัวอย่างทั้งหมดช่วงค่าที่อนุญาตและคุณสมบัติอื่น ๆ ส่วนประกอบไปป์ไลน์ของ SchemaGen จะสร้างสคีมาโดยอัตโนมัติโดยอนุมานประเภทหมวดหมู่และช่วงจากข้อมูลการฝึกอบรม

 • ใช้: สถิติจากคอมโพเนนต์ StatisticsGen
 • Emits: โปรโตสคีมาข้อมูล

นี่คือข้อความที่ตัดตอนมาจากสคีมาโปรโต:

...
feature {
 name: "age"
 value_count {
  min: 1
  max: 1
 }
 type: FLOAT
 presence {
  min_fraction: 1
  min_count: 1
 }
}
feature {
 name: "capital-gain"
 value_count {
  min: 1
  max: 1
 }
 type: FLOAT
 presence {
  min_fraction: 1
  min_count: 1
 }
}
...

ไลบรารี TFX ต่อไปนี้ใช้สคีมา:

 • การตรวจสอบข้อมูล TensorFlow
 • การแปลง TensorFlow
 • การวิเคราะห์แบบจำลอง TensorFlow

ในท่อ TFX ทั่วไป SchemaGen จะสร้างสคีมาซึ่งใช้โดยส่วนประกอบไปป์ไลน์อื่น ๆ

SchemaGen และ TensorFlow Data Validation

SchemaGen ใช้ประโยชน์จาก TensorFlow Data Validation อย่างกว้างขวางสำหรับการอนุมานสคีมา

การใช้คอมโพเนนต์ SchemaGen

โดยทั่วไปแล้วส่วนประกอบไปป์ไลน์ของ SchemaGen นั้นง่ายมากในการปรับใช้และต้องการการปรับแต่งเพียงเล็กน้อย รหัสทั่วไปมีลักษณะดังนี้:

from tfx import components

...

infer_schema = components.SchemaGen(
  statistics=compute_training_stats.outputs['statistics'])