การใช้คลาส Pipeline
ไปป์ไลน์ TFX ถูกกำหนดโดยใช้ คลาส Pipeline
ตัวอย่างต่อไปนี้สาธิตวิธีใช้คลาส Pipeline
pipeline.Pipeline( pipeline_name=pipeline-name, pipeline_root=pipeline-root, components=components, enable_cache=enable-cache, metadata_connection_config=metadata-connection-config, )
แทนที่สิ่งต่อไปนี้:
pipeline-name : ชื่อของไปป์ไลน์นี้ ชื่อไปป์ไลน์ต้องไม่ซ้ำกัน
TFX ใช้ชื่อไปป์ไลน์เมื่อสอบถามข้อมูลเมตา ML สำหรับสิ่งประดิษฐ์อินพุตคอมโพเนนต์ การใช้ชื่อไปป์ไลน์ซ้ำอาจส่งผลให้เกิดพฤติกรรมที่ไม่คาดคิด
pipeline-root : เส้นทางรูทของเอาต์พุตของไปป์ไลน์นี้ เส้นทางรูทต้องเป็นเส้นทางแบบเต็มไปยังไดเร็กทอรีที่ออเคสตราเตอร์ของคุณมีสิทธิ์อ่านและเขียน ที่รันไทม์ TFX ใช้ไปป์ไลน์รูทเพื่อสร้างพาธเอาต์พุตสำหรับส่วนประกอบ ไดเร็กทอรีนี้สามารถเป็นแบบโลคัลหรือบนระบบไฟล์แบบกระจายที่รองรับ เช่น Google Cloud Storage หรือ HDFS
components : รายการอินสแตนซ์คอมโพเนนต์ที่ประกอบกันเป็นเวิร์กโฟลว์ของไปป์ไลน์นี้
enable-cache : (ไม่บังคับ) ค่าบูลีนที่ระบุว่าไปป์ไลน์นี้ใช้การแคชเพื่อเพิ่มความเร็วในการดำเนินการไปป์ไลน์หรือไม่
metadata-connection-config : (ไม่บังคับ) การกำหนดค่าการเชื่อมต่อสำหรับ ML Metadata
การกำหนดกราฟการทำงานของคอมโพเนนต์
อินสแตนซ์ของคอมโพเนนต์สร้างสิ่งประดิษฐ์เป็นเอาต์พุต และโดยทั่วไปขึ้นอยู่กับสิ่งประดิษฐ์ที่สร้างโดยอินสแตนซ์คอมโพเนนต์ต้นทางเป็นอินพุต ลำดับการดำเนินการสำหรับอินสแตนซ์คอมโพเนนต์ถูกกำหนดโดยการสร้างกราฟกำกับแบบวงกลม (DAG) ของการขึ้นต่อกันของอาร์ติแฟกต์
ตัวอย่างเช่น คอมโพเนนต์มาตรฐาน ExampleGen
สามารถนำเข้าข้อมูลจากไฟล์ CSV และส่งออกบันทึกตัวอย่างที่ต่อเนื่องกัน คอมโพเนนต์มาตรฐาน StatisticsGen
ยอมรับบันทึกตัวอย่างเหล่านี้เป็นอินพุตและสร้างสถิติชุดข้อมูล ในตัวอย่างนี้ อินสแตนซ์ของ StatisticsGen
ต้องเป็นไปตาม ExampleGen
เนื่องจาก SchemaGen
ขึ้นอยู่กับผลลัพธ์ของ ExampleGen
การพึ่งพาตามงาน
คุณยังสามารถกำหนดการอ้างอิงตามงานโดยใช้ add_upstream_node
และ add_downstream_node
ของคอมโพเนนต์ของคุณ add_upstream_node
ให้คุณระบุว่าคอมโพเนนต์ปัจจุบันต้องดำเนินการหลังจากคอมโพเนนต์ที่ระบุ add_downstream_node
ให้คุณระบุว่าคอมโพเนนต์ปัจจุบันต้องดำเนินการก่อนคอมโพเนนต์ที่ระบุ
เทมเพลตไปป์ไลน์
วิธีที่ง่ายที่สุดในการตั้งค่าไปป์ไลน์อย่างรวดเร็วและดูว่าชิ้นส่วนทั้งหมดประกอบเข้าด้วยกันได้อย่างไรคือการใช้เทมเพลต การใช้เทมเพลตจะกล่าวถึงใน การสร้างท่อส่ง TFX ภายในเครื่อง
เก็บเอาไว้
การแคชไปป์ไลน์ TFX ช่วยให้ไปป์ไลน์ของคุณข้ามผ่านคอมโพเนนต์ที่ดำเนินการด้วยอินพุตชุดเดียวกันในการรันไปป์ไลน์ก่อนหน้านี้ หากเปิดใช้งานการแคช ไปป์ไลน์จะพยายามจับคู่ลายเซ็นของแต่ละคอมโพเนนต์ คอมโพเนนต์และชุดอินพุต กับหนึ่งในการดำเนินการคอมโพเนนต์ก่อนหน้านี้ของไปป์ไลน์นี้ หากมีการจับคู่ ไปป์ไลน์จะใช้เอาต์พุตคอมโพเนนต์จากการรันครั้งก่อน หากไม่ตรงกัน คอมโพเนนต์จะถูกดำเนินการ
อย่าใช้การแคชหากไปป์ไลน์ของคุณใช้ส่วนประกอบที่ไม่ได้กำหนด ตัวอย่างเช่น หากคุณสร้างคอมโพเนนต์เพื่อสร้างตัวเลขสุ่มสำหรับไปป์ไลน์ของคุณ การเปิดใช้งานแคชจะทำให้คอมโพเนนต์นี้ทำงานเพียงครั้งเดียว ในตัวอย่างนี้ การเรียกใช้ครั้งต่อไปจะใช้หมายเลขสุ่มของการเรียกใช้ครั้งแรกแทนการสร้างตัวเลขสุ่ม