สร้างท่อส่ง TFX

จัดทุกอย่างให้เป็นระเบียบอยู่เสมอด้วยคอลเล็กชัน บันทึกและจัดหมวดหมู่เนื้อหาตามค่ากำหนดของคุณ

การใช้คลาส Pipeline

ไปป์ไลน์ TFX ถูกกำหนดโดยใช้ คลาส Pipeline ตัวอย่างต่อไปนี้สาธิตวิธีใช้คลาส Pipeline

pipeline.Pipeline(
    pipeline_name=pipeline-name,
    pipeline_root=pipeline-root,
    components=components,
    enable_cache=enable-cache,
    metadata_connection_config=metadata-connection-config,
)

แทนที่สิ่งต่อไปนี้:

  • pipeline-name : ชื่อของไปป์ไลน์นี้ ชื่อไปป์ไลน์ต้องไม่ซ้ำกัน

    TFX ใช้ชื่อไปป์ไลน์เมื่อสอบถามข้อมูลเมตา ML สำหรับสิ่งประดิษฐ์อินพุตคอมโพเนนต์ การใช้ชื่อไปป์ไลน์ซ้ำอาจส่งผลให้เกิดพฤติกรรมที่ไม่คาดคิด

  • pipeline-root : เส้นทางรูทของเอาต์พุตของไปป์ไลน์นี้ เส้นทางรูทต้องเป็นเส้นทางแบบเต็มไปยังไดเร็กทอรีที่ออเคสตราเตอร์ของคุณมีสิทธิ์อ่านและเขียน ที่รันไทม์ TFX ใช้ไปป์ไลน์รูทเพื่อสร้างพาธเอาต์พุตสำหรับส่วนประกอบ ไดเร็กทอรีนี้สามารถเป็นแบบโลคัลหรือบนระบบไฟล์แบบกระจายที่รองรับ เช่น Google Cloud Storage หรือ HDFS

  • components : รายการอินสแตนซ์คอมโพเนนต์ที่ประกอบกันเป็นเวิร์กโฟลว์ของไปป์ไลน์นี้

  • enable-cache : (ไม่บังคับ) ค่าบูลีนที่ระบุว่าไปป์ไลน์นี้ใช้การแคชเพื่อเพิ่มความเร็วในการดำเนินการไปป์ไลน์หรือไม่

  • metadata-connection-config : (ไม่บังคับ) การกำหนดค่าการเชื่อมต่อสำหรับ ML Metadata

การกำหนดกราฟการทำงานของคอมโพเนนต์

อินสแตนซ์ของคอมโพเนนต์สร้างสิ่งประดิษฐ์เป็นเอาต์พุต และโดยทั่วไปขึ้นอยู่กับสิ่งประดิษฐ์ที่สร้างโดยอินสแตนซ์คอมโพเนนต์ต้นทางเป็นอินพุต ลำดับการดำเนินการสำหรับอินสแตนซ์คอมโพเนนต์ถูกกำหนดโดยการสร้างกราฟกำกับแบบวงกลม (DAG) ของการขึ้นต่อกันของอาร์ติแฟกต์

ตัวอย่างเช่น คอมโพเนนต์มาตรฐาน ExampleGen สามารถนำเข้าข้อมูลจากไฟล์ CSV และส่งออกบันทึกตัวอย่างที่ต่อเนื่องกัน คอมโพเนนต์มาตรฐาน StatisticsGen ยอมรับบันทึกตัวอย่างเหล่านี้เป็นอินพุตและสร้างสถิติชุดข้อมูล ในตัวอย่างนี้ อินสแตนซ์ของ StatisticsGen ต้องเป็นไปตาม ExampleGen เนื่องจาก SchemaGen ขึ้นอยู่กับผลลัพธ์ของ ExampleGen

การพึ่งพาตามงาน

คุณยังสามารถกำหนดการอ้างอิงตามงานโดยใช้ add_upstream_node และ add_downstream_node ของคอมโพเนนต์ของคุณ add_upstream_node ให้คุณระบุว่าคอมโพเนนต์ปัจจุบันต้องดำเนินการหลังจากคอมโพเนนต์ที่ระบุ add_downstream_node ให้คุณระบุว่าคอมโพเนนต์ปัจจุบันต้องดำเนินการก่อนคอมโพเนนต์ที่ระบุ

เทมเพลตไปป์ไลน์

วิธีที่ง่ายที่สุดในการตั้งค่าไปป์ไลน์อย่างรวดเร็วและดูว่าชิ้นส่วนทั้งหมดประกอบเข้าด้วยกันได้อย่างไรคือการใช้เทมเพลต การใช้เทมเพลตจะกล่าวถึงใน การสร้างท่อส่ง TFX ภายในเครื่อง

เก็บเอาไว้

การแคชไปป์ไลน์ TFX ช่วยให้ไปป์ไลน์ของคุณข้ามผ่านคอมโพเนนต์ที่ดำเนินการด้วยอินพุตชุดเดียวกันในการรันไปป์ไลน์ก่อนหน้านี้ หากเปิดใช้งานการแคช ไปป์ไลน์จะพยายามจับคู่ลายเซ็นของแต่ละคอมโพเนนต์ คอมโพเนนต์และชุดอินพุต กับหนึ่งในการดำเนินการคอมโพเนนต์ก่อนหน้านี้ของไปป์ไลน์นี้ หากมีการจับคู่ ไปป์ไลน์จะใช้เอาต์พุตคอมโพเนนต์จากการรันครั้งก่อน หากไม่ตรงกัน คอมโพเนนต์จะถูกดำเนินการ

อย่าใช้การแคชหากไปป์ไลน์ของคุณใช้ส่วนประกอบที่ไม่ได้กำหนด ตัวอย่างเช่น หากคุณสร้างคอมโพเนนต์เพื่อสร้างตัวเลขสุ่มสำหรับไปป์ไลน์ของคุณ การเปิดใช้งานแคชจะทำให้คอมโพเนนต์นี้ทำงานเพียงครั้งเดียว ในตัวอย่างนี้ การเรียกใช้ครั้งต่อไปจะใช้หมายเลขสุ่มของการเรียกใช้ครั้งแรกแทนการสร้างตัวเลขสุ่ม