Xây dựng đường ống TFX

Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

Sử dụng lớp Pipeline

Các đường ống dẫn TFX được xác định bằng cách sử dụng lớp Pipeline . Ví dụ sau minh họa cách sử dụng lớp Pipeline .

pipeline.Pipeline(
    pipeline_name=pipeline-name,
    pipeline_root=pipeline-root,
    components=components,
    enable_cache=enable-cache,
    metadata_connection_config=metadata-connection-config,
)

Thay thế như sau:

  • pipeline-name : Tên của đường ống này. Tên đường ống phải là duy nhất.

    TFX sử dụng tên đường dẫn khi truy vấn Siêu dữ liệu ML cho các tạo phẩm đầu vào thành phần. Việc sử dụng lại tên đường dẫn có thể dẫn đến các hành vi không mong muốn.

  • pipeline-root : Đường dẫn gốc của đầu ra của đường ống này. Đường dẫn gốc phải là đường dẫn đầy đủ đến thư mục mà bộ điều phối của bạn có quyền truy cập đọc và ghi. Khi chạy, TFX sử dụng gốc đường ống để tạo đường dẫn đầu ra cho các tạo phẩm thành phần. Thư mục này có thể là cục bộ hoặc trên một hệ thống tệp phân tán được hỗ trợ, chẳng hạn như Google Cloud Storage hoặc HDFS.

  • components : Danh sách các phiên bản thành phần tạo nên quy trình làm việc của quy trình này.

  • enable-cache : (Tùy chọn.) Một giá trị boolean cho biết liệu đường ống này có sử dụng bộ nhớ đệm để tăng tốc độ thực thi đường ống hay không.

  • metadata-connection-config : (Tùy chọn.) Cấu hình kết nối cho Siêu dữ liệu ML.

Xác định biểu đồ thực thi thành phần

Các phiên bản thành phần tạo ra các thành phần lạ dưới dạng đầu ra và thường phụ thuộc vào các thành phần tạo ra bởi các phiên bản thành phần ngược dòng làm đầu vào. Trình tự thực thi cho các phiên bản thành phần được xác định bằng cách tạo một đồ thị tuần hoàn có hướng (DAG) của các thành phần phụ thuộc tạo tác.

Ví dụ: thành phần tiêu chuẩn ExampleGen có thể nhập dữ liệu từ tệp CSV và xuất các bản ghi ví dụ được tuần tự hóa. Thành phần tiêu chuẩn StatisticsGen chấp nhận các bản ghi ví dụ này làm đầu vào và tạo số liệu thống kê tập dữ liệu. Trong ví dụ này, phiên bản của StatisticsGen phải tuân theo ExampleGenSchemaGen phụ thuộc vào đầu ra của ExampleGen .

Phụ thuộc dựa trên nhiệm vụ

Bạn cũng có thể xác định các phụ thuộc dựa trên nhiệm vụ bằng cách sử dụng các phương thức add_upstream_nodeadd_downstream_node của thành phần của bạn. add_upstream_node cho phép bạn chỉ định rằng thành phần hiện tại phải được thực thi sau thành phần đã chỉ định. add_downstream_node cho phép bạn chỉ định rằng thành phần hiện tại phải được thực thi trước thành phần đã chỉ định.

mẫu đường ống

Cách dễ nhất để nhanh chóng thiết lập một quy trình bán hàng và để xem tất cả các phần ăn khớp với nhau như thế nào là sử dụng một mẫu. Việc sử dụng các mẫu được trình bày trong Xây dựng Đường ống TFX Cục bộ .

Bộ nhớ đệm

Bộ nhớ đệm đường ống TFX cho phép đường ống của bạn bỏ qua các thành phần đã được thực thi với cùng một bộ đầu vào trong lần chạy đường ống trước đó. Nếu bộ nhớ đệm được bật, quy trình cố gắng khớp chữ ký của từng thành phần, thành phần và bộ đầu vào, với một trong các lần thực thi thành phần trước đó của quy trình này. Nếu khớp, đường ống sẽ sử dụng các kết quả đầu ra của thành phần từ lần chạy trước. Nếu không khớp, thành phần này sẽ được thực thi.

Không sử dụng bộ nhớ đệm nếu đường ống của bạn sử dụng các thành phần không xác định. Ví dụ: nếu bạn tạo một thành phần để tạo một số ngẫu nhiên cho quy trình của mình, việc bật bộ nhớ đệm sẽ khiến thành phần này thực thi một lần. Trong ví dụ này, các lần chạy tiếp theo sử dụng số ngẫu nhiên của lần chạy đầu tiên thay vì tạo một số ngẫu nhiên.