คอมโพเนนต์ไปป์ไลน์ SchemaGen TFX

จัดทุกอย่างให้เป็นระเบียบอยู่เสมอด้วยคอลเล็กชัน บันทึกและจัดหมวดหมู่เนื้อหาตามค่ากำหนดของคุณ

บางส่วนประกอบ TFX ใช้รายละเอียดของการป้อนข้อมูลของคุณที่เรียกว่าคีมา คีมาเป็นตัวอย่างของ schema.proto สามารถระบุชนิดข้อมูลสำหรับค่าคุณลักษณะ ว่าต้องมีคุณลักษณะในตัวอย่างทั้งหมด ช่วงค่าที่อนุญาต และคุณสมบัติอื่นๆ หรือไม่ คอมโพเนนต์ไปป์ไลน์ SchemaGen จะสร้างสคีมาโดยอัตโนมัติโดยอนุมานประเภท หมวดหมู่ และช่วงจากข้อมูลการฝึกอบรม

  • กิน: สถิติจากส่วนประกอบ StatisticsGen
  • การปล่อย: Data schema proto

นี่เป็นข้อความที่ตัดตอนมาจากโปรโตสคีมา:

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

ไลบรารี TFX ต่อไปนี้ใช้สคีมา:

  • การตรวจสอบข้อมูล TensorFlow
  • การแปลงเทนเซอร์โฟลว์
  • การวิเคราะห์แบบจำลอง TensorFlow

ในไปป์ไลน์ TFX ทั่วไป SchemaGen จะสร้างสคีมา ซึ่งถูกใช้โดยส่วนประกอบไปป์ไลน์อื่นๆ อย่างไรก็ตาม สคีมาที่สร้างขึ้นโดยอัตโนมัตินั้นพยายามอย่างดีที่สุดและพยายามอนุมานเฉพาะคุณสมบัติพื้นฐานของข้อมูลเท่านั้น เป็นที่คาดหวังให้นักพัฒนาตรวจสอบและแก้ไขตามความจำเป็น

สคีมาที่แก้ไขสามารถนำกลับเข้ามาในไปป์ไลน์โดยใช้คอมโพเนนต์ ImportSchemaGen คอมโพเนนต์ SchemaGen สำหรับการสร้างสคีมาเริ่มต้นสามารถลบออกได้ และคอมโพเนนต์ดาวน์สตรีมทั้งหมดสามารถใช้เอาต์พุตของ ImportSchemaGen นอกจากนี้ยังแนะนำให้เพิ่ม ExampleValidator ใช้สคีที่นำเข้ามาเพื่อตรวจสอบข้อมูลการฝึกอบรมอย่างต่อเนื่อง

SchemaGen และการตรวจสอบความถูกต้องของข้อมูล TensorFlow

SchemaGen ทำให้การใช้งานที่กว้างขวางของ TensorFlow การตรวจสอบข้อมูล สำหรับการอนุมานสคีมา

การใช้คอมโพเนนต์ SchemaGen

สำหรับการสร้างสคีมาเริ่มต้น

คอมโพเนนต์ไปป์ไลน์ SchemaGen มักจะปรับใช้ได้ง่ายมากและต้องการการปรับแต่งเพียงเล็กน้อย รหัสทั่วไปมีลักษณะดังนี้:

schema_gen = tfx.components.SchemaGen(
    statistics=stats_gen.outputs['statistics'])

รายละเอียดเพิ่มเติมที่มีอยู่ใน การอ้างอิง SchemaGen API

สำหรับการนำเข้าสคีมาที่ตรวจสอบแล้ว

เพิ่มองค์ประกอบ ImportSchemaGen ไปยังไปป์ไลน์เพื่อนำข้อกำหนดสกีมาที่ตรวจสอบแล้วเข้าสู่ไปป์ไลน์

schema_gen = tfx.components.ImportSchemaGen(
    schema_file='/some/path/schema.pbtxt')

schema_file ควรจะเป็นเส้นทางที่เต็มไปด้วยไฟล์ protobuf ข้อความ

รายละเอียดเพิ่มเติมที่มีอยู่ใน การอ้างอิง ImportSchemaGen API