TFX işlem hatları oluşturma

Kullanılması Pipeline sınıfını

TFX boru hatları kullanılarak tanımlanır Pipeline sınıfı . Aşağıdaki örnek nasıl kullanılacağını göstermektedir Pipeline sınıfını.

pipeline.Pipeline(
    pipeline_name=pipeline-name,
    pipeline_root=pipeline-root,
    components=components,
    enable_cache=enable-cache,
    metadata_connection_config=metadata-connection-config,
)

Aşağıdakileri değiştirin:

  • pipeline-name : Bu hattın adı. İşlem hattı adı benzersiz olmalıdır.

    TFX, bileşen girdi yapıları için ML Meta Verilerini sorgularken işlem hattı adını kullanır. Bir işlem hattı adının yeniden kullanılması beklenmeyen davranışlara neden olabilir.

  • pipeline-root : Bu boru hattının çıkışları kök yolu. Kök yolu, orkestratörünüzün okuma ve yazma erişimine sahip olduğu bir dizinin tam yolu olmalıdır. Çalışma zamanında TFX, bileşen yapıtları için çıktı yolları oluşturmak için ardışık düzen kökünü kullanır. Bu dizin yerel olabilir veya Google Cloud Storage veya HDFS gibi desteklenen bir dağıtılmış dosya sisteminde olabilir.

  • components : Bu boru hattının iş akışını oluşturan bileşen somut bir listesi.

  • enable-cache : (İsteğe bağlı). Bu boru kullanımları boru hattı hızlandırılması önbelleğe bunu gösteren bir Boole değeri.

  • metadata-connection-config : (İsteğe bağlı.) ML Meta veri için bağlantı yapılandırması.

Bileşen yürütme grafiğini tanımlama

Bileşen örnekleri, çıktılar olarak yapıtlar üretir ve tipik olarak, girdi olarak yukarı akış bileşen örnekleri tarafından üretilen yapılara bağlıdır. Bileşen örnekleri için yürütme sırası, yapay bağımlılıkların yönlendirilmiş bir döngüsel olmayan grafiği (DAG) oluşturularak belirlenir.

Örneğin, ExampleGen standart bileşen CSV dosyası ve çıkış tefrika Örnek kayıtlarından verileri aktarabilir. StatisticsGen standart bileşen girdi olarak bu örnek, kayıt kabul eder ve veri kümesi istatistik üretmektedir. Bu örnekte, örnek StatisticsGen uymalı ExampleGen çünkü SchemaGen çıkışında bağlıdır ExampleGen .

Görev tabanlı bağımlılıklar

Ayrıca bileşenin kullanarak görev tabanlı bağımlılıkları tanımlayabilir add_upstream_node ve add_downstream_node yöntemleri. add_upstream_node geçerli komponent belirtilen bileşen sonra infaz edilmesi gerektiğini belirlemenizi sağlar. add_downstream_node geçerli komponent belirtilen bileşen önce yürütülmelidir olduğunu belirlemenizi sağlar.

Boru hattı şablonları

Bir boru hattını hızlı bir şekilde kurmanın ve tüm parçaların nasıl birbirine uyduğunu görmenin en kolay yolu bir şablon kullanmaktır. Şablonlarını kullanma kaplıdır Yerel bir TFX Boru Hattı Bina .

Önbelleğe almak

TFX ardışık düzen önbelleğe alma, işlem hattınızın önceki bir işlem hattı çalıştırmasında aynı girdi kümesiyle yürütülen bileşenleri atlamasını sağlar. Önbelleğe alma etkinleştirilirse, işlem hattı her bileşenin, bileşenin ve girdi kümesinin imzasını bu işlem hattının önceki bileşen yürütmelerinden biriyle eşleştirmeye çalışır. Bir eşleşme varsa, işlem hattı önceki çalıştırmanın bileşen çıktılarını kullanır. Bir eşleşme yoksa, bileşen yürütülür.

İşlem hattınız deterministik olmayan bileşenler kullanıyorsa önbelleğe almayı kullanmayın. Örneğin, işlem hattınız için rasgele bir sayı oluşturmak üzere bir bileşen oluşturursanız, önbelleğin etkinleştirilmesi bu bileşenin bir kez yürütülmesine neden olur. Bu örnekte, sonraki çalıştırmalar, rastgele bir sayı üretmek yerine ilk çalıştırmanın rastgele sayısını kullanır.