ส่วนประกอบไปป์ไลน์ StatisticsGen TFX

คอมโพเนนต์ไปป์ไลน์ StatisticsGen TFX จะสร้างสถิติคุณสมบัติเหนือข้อมูลการฝึกอบรมและการให้บริการ ซึ่งส่วนประกอบไปป์ไลน์อื่นๆ สามารถใช้ได้ StatisticsGen ใช้ Beam เพื่อปรับขนาดเป็นชุดข้อมูลขนาดใหญ่

  • ใช้: ชุดข้อมูลที่สร้างโดยส่วนประกอบไปป์ไลน์ ExampleGen
  • การปล่อย: สถิติชุดข้อมูล

การตรวจสอบข้อมูล StatisticsGen และ TensorFlow

StatisticsGen ทำให้การใช้งานที่กว้างขวางของ TensorFlow การตรวจสอบข้อมูล สำหรับสถิติการสร้างจากชุดข้อมูลของคุณ

การใช้คอมโพเนนต์ StatsGen

ส่วนประกอบไปป์ไลน์ของ StatisticsGen นั้นมักจะปรับใช้ได้ง่ายมากและต้องการการปรับแต่งเพียงเล็กน้อย รหัสทั่วไปมีลักษณะดังนี้:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

การใช้คอมโพเนนต์ StatsGen กับ Schema

สำหรับการรันไปป์ไลน์ครั้งแรก เอาต์พุตของ StatisticsGen จะถูกใช้เพื่ออนุมานสคีมา อย่างไรก็ตาม ในการรันครั้งต่อๆ ไป คุณอาจมีสคีมาที่ดูแลจัดการด้วยตนเองซึ่งมีข้อมูลเพิ่มเติมเกี่ยวกับชุดข้อมูลของคุณ การให้สคีมานี้แก่ StatisticsGen ช่วยให้ TFDV สามารถให้สถิติที่เป็นประโยชน์มากขึ้นตามคุณสมบัติที่ประกาศไว้ของชุดข้อมูลของคุณ

ในการตั้งค่านี้ คุณจะเรียกใช้ StatisticsGen ด้วยสคีมาที่ได้รับการดูแลซึ่งนำเข้าโดย ImporterNode ดังนี้:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

การสร้างสคีมาที่ดูแลจัดการ

Schema ใน TFX เป็นตัวอย่างของ TensorFlow Metadata Schema โปรโต นี้สามารถประกอบใน รูปแบบข้อความ จากรอยขีดข่วน แต่มันเป็นเรื่องง่ายที่จะใช้คีมาสรุปที่ผลิตโดย SchemaGen เป็นจุดเริ่มต้น เมื่อ SchemaGen องค์ประกอบได้ดำเนินคีจะอยู่ภายใต้รากท่อในเส้นทางต่อไปนี้:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

ไหน <artifact_id> หมายถึงรหัสเฉพาะสำหรับรุ่นนี้เค้าร่างใน MLMD โปรโตสคีมานี้ก็สามารถแก้ไขได้ในการสื่อสารข้อมูลเกี่ยวกับชุดข้อมูลที่ไม่สามารถสรุปได้อย่างน่าเชื่อถือซึ่งจะทำให้การส่งออกของ StatisticsGen ประโยชน์มากขึ้นและการตรวจสอบดำเนินการใน ExampleValidator องค์ประกอบอื่น ๆ ที่เข้มงวด

รายละเอียดเพิ่มเติมที่มีอยู่ใน การอ้างอิง StatisticsGen API