คอมโพเนนต์ไปป์ไลน์ SchemaGen TFX

จัดทุกอย่างให้เป็นระเบียบอยู่เสมอด้วยคอลเล็กชัน บันทึกและจัดหมวดหมู่เนื้อหาตามค่ากำหนดของคุณ

บางส่วนประกอบ TFX ใช้รายละเอียดของการป้อนข้อมูลของคุณที่เรียกว่าคีมา คีมาเป็นตัวอย่างของ schema.proto สามารถระบุชนิดข้อมูลสำหรับค่าคุณลักษณะ ว่าต้องมีคุณลักษณะในตัวอย่างทั้งหมด ช่วงค่าที่อนุญาต และคุณสมบัติอื่นๆ หรือไม่ คอมโพเนนต์ไปป์ไลน์ SchemaGen จะสร้างสคีมาโดยอัตโนมัติโดยอนุมานประเภท หมวดหมู่ และช่วงจากข้อมูลการฝึกอบรม

 • กิน: สถิติจากส่วนประกอบ StatisticsGen
 • การปล่อย: Data schema proto

นี่เป็นข้อความที่ตัดตอนมาจากโปรโตสคีมา:

...
feature {
 name: "age"
 value_count {
  min: 1
  max: 1
 }
 type: FLOAT
 presence {
  min_fraction: 1
  min_count: 1
 }
}
feature {
 name: "capital-gain"
 value_count {
  min: 1
  max: 1
 }
 type: FLOAT
 presence {
  min_fraction: 1
  min_count: 1
 }
}
...

ไลบรารี TFX ต่อไปนี้ใช้สคีมา:

 • การตรวจสอบข้อมูล TensorFlow
 • การแปลงเทนเซอร์โฟลว์
 • การวิเคราะห์แบบจำลอง TensorFlow

ในไปป์ไลน์ TFX ทั่วไป SchemaGen จะสร้างสคีมา ซึ่งถูกใช้โดยส่วนประกอบไปป์ไลน์อื่นๆ อย่างไรก็ตาม สคีมาที่สร้างขึ้นโดยอัตโนมัตินั้นพยายามอย่างดีที่สุดและพยายามอนุมานเฉพาะคุณสมบัติพื้นฐานของข้อมูลเท่านั้น เป็นที่คาดหวังให้นักพัฒนาตรวจสอบและแก้ไขตามความจำเป็น

สคีมาที่แก้ไขสามารถนำกลับเข้ามาในไปป์ไลน์โดยใช้คอมโพเนนต์ ImportSchemaGen คอมโพเนนต์ SchemaGen สำหรับการสร้างสคีมาเริ่มต้นสามารถลบออกได้ และคอมโพเนนต์ดาวน์สตรีมทั้งหมดสามารถใช้เอาต์พุตของ ImportSchemaGen นอกจากนี้ยังแนะนำให้เพิ่ม ExampleValidator ใช้สคีที่นำเข้ามาเพื่อตรวจสอบข้อมูลการฝึกอบรมอย่างต่อเนื่อง

SchemaGen และการตรวจสอบความถูกต้องของข้อมูล TensorFlow

SchemaGen ทำให้การใช้งานที่กว้างขวางของ TensorFlow การตรวจสอบข้อมูล สำหรับการอนุมานสคีมา

การใช้คอมโพเนนต์ SchemaGen

สำหรับการสร้างสคีมาเริ่มต้น

คอมโพเนนต์ไปป์ไลน์ SchemaGen มักจะปรับใช้ได้ง่ายมากและต้องการการปรับแต่งเพียงเล็กน้อย รหัสทั่วไปมีลักษณะดังนี้:

schema_gen = tfx.components.SchemaGen(
  statistics=stats_gen.outputs['statistics'])

รายละเอียดเพิ่มเติมที่มีอยู่ใน การอ้างอิง SchemaGen API

สำหรับการนำเข้าสคีมาที่ตรวจสอบแล้ว

เพิ่มองค์ประกอบ ImportSchemaGen ไปยังไปป์ไลน์เพื่อนำข้อกำหนดสกีมาที่ตรวจสอบแล้วเข้าสู่ไปป์ไลน์

schema_gen = tfx.components.ImportSchemaGen(
  schema_file='/some/path/schema.pbtxt')

schema_file ควรจะเป็นเส้นทางที่เต็มไปด้วยไฟล์ protobuf ข้อความ

รายละเอียดเพิ่มเติมที่มีอยู่ใน การอ้างอิง ImportSchemaGen API