คำถามเกี่ยวกับ TFX? เข้าร่วมกับเราที่ Google I / O!
หน้านี้ได้รับการแปลโดย Cloud Translation API
Switch to English

ส่วนประกอบไปป์ไลน์ของ StatisticsGen TFX

คอมโพเนนต์ไปป์ไลน์ StatisticsGen TFX สร้างสถิติคุณลักษณะทั้งข้อมูลการฝึกอบรมและการให้บริการซึ่งส่วนประกอบไปป์ไลน์อื่น ๆ สามารถใช้ได้ StatisticsGen ใช้ Beam เพื่อปรับขนาดเป็นชุดข้อมูลขนาดใหญ่

  • การบริโภค: ชุดข้อมูลที่สร้างโดยคอมโพเนนต์ไปป์ไลน์ ExampleGen
  • Emits: สถิติชุดข้อมูล

การตรวจสอบความถูกต้องของข้อมูล StatisticsGen และ TensorFlow

StatisticsGen ใช้ประโยชน์อย่างกว้างขวางของ TensorFlow Data Validation สำหรับการสร้างสถิติจากชุดข้อมูลของคุณ

การใช้ส่วนประกอบ StatsGen

โดยทั่วไปแล้วส่วนประกอบไปป์ไลน์ของ StatisticsGen นั้นง่ายมากในการปรับใช้และต้องการการปรับแต่งเพียงเล็กน้อย รหัสทั่วไปมีลักษณะดังนี้:

from tfx import components

...

compute_eval_stats = components.StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

การใช้ส่วนประกอบ StatsGen ด้วย Schema

สำหรับการรันไปป์ไลน์ครั้งแรกเอาต์พุตของ StatisticsGen จะถูกใช้เพื่อสรุปสคีมา อย่างไรก็ตามในการเรียกใช้ครั้งต่อ ๆ ไปคุณอาจมีสคีมาที่ดูแลจัดการด้วยตนเองซึ่งมีข้อมูลเพิ่มเติมเกี่ยวกับชุดข้อมูลของคุณ ด้วยการให้สคีมานี้แก่ StatisticsGen TFDV สามารถให้สถิติที่มีประโยชน์มากขึ้นตามคุณสมบัติที่ประกาศของชุดข้อมูลของคุณ

ในการตั้งค่านี้คุณจะเรียกใช้ StatisticsGen ด้วยสคีมาที่ได้รับการดูแลซึ่งนำเข้าโดย ImporterNode ดังนี้:

from tfx import components
from tfx.types import standard_artifacts

...

user_schema_importer = components.ImporterNode(
    instance_name='import_user_schema',
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema)

compute_eval_stats = components.StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

การสร้างสคีมาที่คัดสรร

Schema ใน TFX เป็นอินสแตนซ์ของ โปรโต TensorFlow Metadata Schema ซึ่งสามารถประกอบใน รูปแบบข้อความ ตั้งแต่เริ่มต้น อย่างไรก็ตามมันง่ายกว่าที่จะใช้สคีมาที่อนุมานซึ่งสร้างโดย SchemaGen เป็นจุดเริ่มต้น เมื่อคอมโพเนนต์ SchemaGen ดำเนินการแล้วสคีมาจะอยู่ภายใต้รูทไปป์ไลน์ในเส้นทางต่อไปนี้:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

โดยที่ <artifact_id> แสดงถึง ID เฉพาะสำหรับเวอร์ชันนี้ของสคีมาใน MLMD จากนั้นสคีมาโปรโตนี้สามารถแก้ไขเพื่อสื่อสารข้อมูลเกี่ยวกับชุดข้อมูลซึ่งไม่สามารถสรุปได้อย่างน่าเชื่อถือซึ่งจะทำให้เอาต์พุตของ StatisticsGen มีประโยชน์มากขึ้นและการตรวจสอบความถูกต้องที่ดำเนินการในคอมโพเนนต์ ExampleValidator มีความเข้มงวดมากขึ้น