คอมโพเนนต์ไปป์ไลน์ StatisticsGen TFX

ส่วนประกอบไปป์ไลน์ StatisticsGen TFX จะสร้างสถิติฟีเจอร์สำหรับทั้งข้อมูลการฝึกและการให้บริการ ซึ่งคอมโพเนนต์ไปป์ไลน์อื่นๆ สามารถนำมาใช้ได้ StatisticsGen ใช้ Beam เพื่อปรับขนาดเป็นชุดข้อมูลขนาดใหญ่

  • ใช้: ชุดข้อมูลที่สร้างโดยส่วนประกอบไปป์ไลน์ ExampleGen
  • ปล่อย: สถิติชุดข้อมูล

การตรวจสอบข้อมูล StatisticsGen และ TensorFlow

StatisticsGen ใช้ การตรวจสอบข้อมูล TensorFlow อย่างครอบคลุมเพื่อสร้างสถิติจากชุดข้อมูลของคุณ

การใช้คอมโพเนนต์ StatsGen

โดยทั่วไปส่วนประกอบไปป์ไลน์ของ StatisticsGen จะปรับใช้ได้ง่ายมากและต้องการการปรับแต่งเพียงเล็กน้อย รหัสทั่วไปมีลักษณะดังนี้:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

การใช้องค์ประกอบ StatsGen ด้วย Schema

สำหรับการเรียกใช้ไปป์ไลน์ครั้งแรก เอาต์พุตของ StatisticsGen จะถูกนำมาใช้เพื่ออนุมานสคีมา อย่างไรก็ตาม ในการเรียกใช้ครั้งต่อๆ ไป คุณอาจมีสคีมาที่ได้รับการดูแลจัดการด้วยตนเองซึ่งมีข้อมูลเพิ่มเติมเกี่ยวกับชุดข้อมูลของคุณ ด้วยการมอบสคีมานี้ให้กับ StatisticsGen ทำให้ TFDV สามารถจัดเตรียมสถิติที่มีประโยชน์มากขึ้นโดยอิงตามคุณสมบัติที่ประกาศของชุดข้อมูลของคุณ

ในการตั้งค่านี้ คุณจะเรียกใช้ StatisticsGen ด้วยสคีมาที่ได้รับการดูแลจัดการซึ่งนำเข้าโดย ImporterNode ดังนี้:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

การสร้างสคีมาที่ได้รับการดูแลจัดการ

Schema ใน TFX เป็นอินสแตนซ์ของ TensorFlow Metadata Schema proto ซึ่งสามารถเขียนได้ใน รูปแบบข้อความ ตั้งแต่เริ่มต้น อย่างไรก็ตาม การใช้สคีมาที่อนุมานที่สร้างโดย SchemaGen เป็นจุดเริ่มต้นง่ายกว่า เมื่อคอมโพเนนต์ SchemaGen ดำเนินการแล้ว สคีมาจะอยู่ใต้รูทไปป์ไลน์ในพาธต่อไปนี้:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

โดยที่ <artifact_id> แสดงถึงรหัสที่ไม่ซ้ำกันสำหรับสคีมาเวอร์ชันนี้ใน MLMD จากนั้นจะสามารถปรับเปลี่ยนสคีมาโปรโตนี้เพื่อสื่อสารข้อมูลเกี่ยวกับชุดข้อมูลที่ไม่สามารถอนุมานได้อย่างน่าเชื่อถือ ซึ่งจะทำให้เอาต์พุตของ StatisticsGen มีประโยชน์มากขึ้น และการตรวจสอบที่ดำเนินการในส่วนประกอบ ExampleValidator เข้มงวดมากขึ้น

มีรายละเอียดเพิ่มเติมใน ข้อมูลอ้างอิง StatisticsGen API