บางส่วนประกอบ TFX ใช้รายละเอียดของการป้อนข้อมูลของคุณที่เรียกว่าคีมา คีมาเป็นตัวอย่างของ schema.proto สามารถระบุชนิดข้อมูลสำหรับค่าคุณลักษณะ ว่าต้องมีคุณลักษณะในตัวอย่างทั้งหมด ช่วงค่าที่อนุญาต และคุณสมบัติอื่นๆ หรือไม่ คอมโพเนนต์ไปป์ไลน์ SchemaGen จะสร้างสคีมาโดยอัตโนมัติโดยอนุมานประเภท หมวดหมู่ และช่วงจากข้อมูลการฝึกอบรม
- กิน: สถิติจากส่วนประกอบ StatisticsGen
- การปล่อย: Data schema proto
นี่เป็นข้อความที่ตัดตอนมาจากโปรโตสคีมา:
...
feature {
name: "age"
value_count {
min: 1
max: 1
}
type: FLOAT
presence {
min_fraction: 1
min_count: 1
}
}
feature {
name: "capital-gain"
value_count {
min: 1
max: 1
}
type: FLOAT
presence {
min_fraction: 1
min_count: 1
}
}
...
ไลบรารี TFX ต่อไปนี้ใช้สคีมา:
- การตรวจสอบข้อมูล TensorFlow
- การแปลงเทนเซอร์โฟลว์
- การวิเคราะห์แบบจำลอง TensorFlow
ในไปป์ไลน์ TFX ทั่วไป SchemaGen จะสร้างสคีมา ซึ่งถูกใช้โดยส่วนประกอบไปป์ไลน์อื่นๆ อย่างไรก็ตาม สคีมาที่สร้างขึ้นโดยอัตโนมัตินั้นพยายามอย่างดีที่สุดและพยายามอนุมานเฉพาะคุณสมบัติพื้นฐานของข้อมูลเท่านั้น เป็นที่คาดหวังให้นักพัฒนาตรวจสอบและแก้ไขตามความจำเป็น
สคีมาที่แก้ไขสามารถนำกลับเข้ามาในไปป์ไลน์โดยใช้คอมโพเนนต์ ImportSchemaGen คอมโพเนนต์ SchemaGen สำหรับการสร้างสคีมาเริ่มต้นสามารถลบออกได้ และคอมโพเนนต์ดาวน์สตรีมทั้งหมดสามารถใช้เอาต์พุตของ ImportSchemaGen นอกจากนี้ยังแนะนำให้เพิ่ม ExampleValidator ใช้สคีที่นำเข้ามาเพื่อตรวจสอบข้อมูลการฝึกอบรมอย่างต่อเนื่อง
SchemaGen และการตรวจสอบความถูกต้องของข้อมูล TensorFlow
SchemaGen ทำให้การใช้งานที่กว้างขวางของ TensorFlow การตรวจสอบข้อมูล สำหรับการอนุมานสคีมา
การใช้คอมโพเนนต์ SchemaGen
สำหรับการสร้างสคีมาเริ่มต้น
คอมโพเนนต์ไปป์ไลน์ SchemaGen มักจะปรับใช้ได้ง่ายมากและต้องการการปรับแต่งเพียงเล็กน้อย รหัสทั่วไปมีลักษณะดังนี้:
schema_gen = tfx.components.SchemaGen(
statistics=stats_gen.outputs['statistics'])
รายละเอียดเพิ่มเติมที่มีอยู่ใน การอ้างอิง SchemaGen API
สำหรับการนำเข้าสคีมาที่ตรวจสอบแล้ว
เพิ่มองค์ประกอบ ImportSchemaGen ไปยังไปป์ไลน์เพื่อนำข้อกำหนดสกีมาที่ตรวจสอบแล้วเข้าสู่ไปป์ไลน์
schema_gen = tfx.components.ImportSchemaGen(
schema_file='/some/path/schema.pbtxt')
schema_file
ควรจะเป็นเส้นทางที่เต็มไปด้วยไฟล์ protobuf ข้อความ
รายละเอียดเพิ่มเติมที่มีอยู่ใน การอ้างอิง ImportSchemaGen API