ส่วนประกอบไปป์ไลน์ SchemaGen TFX

ส่วนประกอบ TFX บางอย่างใช้คำอธิบายข้อมูลอินพุตของคุณที่เรียกว่า สคีมา สคีมาเป็นตัวอย่างของ schema.proto สามารถระบุประเภทข้อมูลสำหรับค่าคุณลักษณะ ไม่ว่าคุณลักษณะจะต้องมีอยู่ในตัวอย่างทั้งหมด ช่วงค่าที่อนุญาต และคุณสมบัติอื่นๆ หรือไม่ ส่วนประกอบไปป์ไลน์ SchemaGen จะสร้างสคีมาโดยอัตโนมัติโดยการอนุมานประเภท หมวดหมู่ และช่วงจากข้อมูลการฝึก

  • ใช้: สถิติจากคอมโพเนนต์ StatisticsGen
  • ปล่อย: ต้นแบบสคีมาข้อมูล

นี่เป็นข้อความที่ตัดตอนมาจากโปรโตสคีมา:

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

ไลบรารี TFX ต่อไปนี้ใช้สคีมา:

  • การตรวจสอบข้อมูล TensorFlow
  • การแปลงเทนเซอร์โฟลว์
  • การวิเคราะห์แบบจำลอง TensorFlow

ในไปป์ไลน์ TFX ทั่วไป SchemaGen จะสร้างสคีมา ซึ่งคอมโพเนนต์ไปป์ไลน์อื่นๆ ใช้ไปป์ไลน์ อย่างไรก็ตาม สคีมาที่สร้างขึ้นอัตโนมัติจะใช้ความพยายามอย่างเต็มที่และพยายามอนุมานคุณสมบัติพื้นฐานของข้อมูลเท่านั้น คาดว่านักพัฒนาจะตรวจสอบและแก้ไขตามความจำเป็น

สคีมาที่แก้ไขสามารถนำกลับเข้าสู่ไปป์ไลน์ได้โดยใช้คอมโพเนนต์ ImportSchemaGen ส่วนประกอบ SchemaGen สำหรับการสร้างสคีมาเริ่มต้นสามารถลบออกได้ และส่วนประกอบดาวน์สตรีมทั้งหมดสามารถใช้เอาต์พุตของ ImportSchemaGen ได้ ขอแนะนำให้เพิ่ม ExampleValidator โดยใช้สคีมาที่นำเข้าเพื่อตรวจสอบข้อมูลการฝึกอย่างต่อเนื่อง

การตรวจสอบข้อมูล SchemaGen และ TensorFlow

SchemaGen ใช้การ ตรวจสอบความถูกต้องของข้อมูล TensorFlow อย่างกว้างขวางเพื่ออนุมานสคีมา

การใช้ส่วนประกอบ SchemaGen

สำหรับการสร้างสคีมาเบื้องต้น

โดยทั่วไปส่วนประกอบไปป์ไลน์ SchemaGen นั้นง่ายต่อการปรับใช้และต้องการการปรับแต่งเพียงเล็กน้อย รหัสทั่วไปมีลักษณะดังนี้:

schema_gen = tfx.components.SchemaGen(
    statistics=stats_gen.outputs['statistics'])

มีรายละเอียดเพิ่มเติมใน ข้อมูลอ้างอิง SchemaGen API

สำหรับการนำเข้าสคีมาที่ได้รับการตรวจสอบแล้ว

เพิ่มส่วนประกอบ ImportSchemaGen ไปยังไปป์ไลน์เพื่อนำข้อกำหนดของสคีมาที่ตรวจสอบแล้วลงในไปป์ไลน์

schema_gen = tfx.components.ImportSchemaGen(
    schema_file='/some/path/schema.pbtxt')

schema_file ควรเป็นเส้นทางแบบเต็มไปยังไฟล์ข้อความ protobuf

รายละเอียดเพิ่มเติมมีอยู่ใน ข้อมูลอ้างอิง ImportSchemaGen API