คอมโพเนนต์ไปป์ไลน์ StatisticsGen TFX จะสร้างสถิติคุณสมบัติเหนือข้อมูลการฝึกอบรมและการให้บริการ ซึ่งส่วนประกอบไปป์ไลน์อื่นๆ สามารถใช้ได้ StatisticsGen ใช้ Beam เพื่อปรับขนาดเป็นชุดข้อมูลขนาดใหญ่
- ใช้: ชุดข้อมูลที่สร้างโดยส่วนประกอบไปป์ไลน์ ExampleGen
- การปล่อย: สถิติชุดข้อมูล
การตรวจสอบข้อมูล StatisticsGen และ TensorFlow
StatisticsGen ทำให้การใช้งานที่กว้างขวางของ TensorFlow การตรวจสอบข้อมูล สำหรับสถิติการสร้างจากชุดข้อมูลของคุณ
การใช้คอมโพเนนต์ StatsGen
ส่วนประกอบไปป์ไลน์ของ StatisticsGen นั้นมักจะปรับใช้ได้ง่ายมากและต้องการการปรับแต่งเพียงเล็กน้อย รหัสทั่วไปมีลักษณะดังนี้:
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
name='compute-eval-stats'
)
การใช้คอมโพเนนต์ StatsGen กับ Schema
สำหรับการรันไปป์ไลน์ครั้งแรก เอาต์พุตของ StatisticsGen จะถูกใช้เพื่ออนุมานสคีมา อย่างไรก็ตาม ในการรันครั้งต่อๆ ไป คุณอาจมีสคีมาที่ดูแลจัดการด้วยตนเองซึ่งมีข้อมูลเพิ่มเติมเกี่ยวกับชุดข้อมูลของคุณ การให้สคีมานี้แก่ StatisticsGen ช่วยให้ TFDV สามารถให้สถิติที่เป็นประโยชน์มากขึ้นตามคุณสมบัติที่ประกาศไว้ของชุดข้อมูลของคุณ
ในการตั้งค่านี้ คุณจะเรียกใช้ StatisticsGen ด้วยสคีมาที่ได้รับการดูแลซึ่งนำเข้าโดย ImporterNode ดังนี้:
user_schema_importer = Importer(
source_uri=user_schema_dir, # directory containing only schema text proto
artifact_type=standard_artifacts.Schema).with_id('schema_importer')
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
schema=user_schema_importer.outputs['result'],
name='compute-eval-stats'
)
การสร้างสคีมาที่ดูแลจัดการ
Schema
ใน TFX เป็นตัวอย่างของ TensorFlow Metadata Schema
โปรโต นี้สามารถประกอบใน รูปแบบข้อความ จากรอยขีดข่วน แต่มันเป็นเรื่องง่ายที่จะใช้คีมาสรุปที่ผลิตโดย SchemaGen
เป็นจุดเริ่มต้น เมื่อ SchemaGen
องค์ประกอบได้ดำเนินคีจะอยู่ภายใต้รากท่อในเส้นทางต่อไปนี้:
<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt
ไหน <artifact_id>
หมายถึงรหัสเฉพาะสำหรับรุ่นนี้เค้าร่างใน MLMD โปรโตสคีมานี้ก็สามารถแก้ไขได้ในการสื่อสารข้อมูลเกี่ยวกับชุดข้อมูลที่ไม่สามารถสรุปได้อย่างน่าเชื่อถือซึ่งจะทำให้การส่งออกของ StatisticsGen
ประโยชน์มากขึ้นและการตรวจสอบดำเนินการใน ExampleValidator
องค์ประกอบอื่น ๆ ที่เข้มงวด
รายละเอียดเพิ่มเติมที่มีอยู่ใน การอ้างอิง StatisticsGen API