TFX ardışık düzenleri oluşturma

Pipeline sınıfını kullanma

TFX işlem hatları, Pipeline sınıfı kullanılarak tanımlanır. Aşağıdaki örnek, Pipeline sınıfının nasıl kullanılacağını gösterir.

pipeline.Pipeline(
    pipeline_name=pipeline-name,
    pipeline_root=pipeline-root,
    components=components,
    enable_cache=enable-cache,
    metadata_connection_config=metadata-connection-config,
)

Aşağıdakileri değiştirin:

  • pipeline-name : Bu boru hattının adı. İşlem hattı adı benzersiz olmalıdır.

    TFX, bileşen girdi yapıtları için ML Meta Verilerini sorgularken ardışık düzen adını kullanır. Bir işlem hattı adının yeniden kullanılması beklenmeyen davranışlara neden olabilir.

  • pipeline-root : Bu boru hattının çıktılarının kök yolu. Kök yol, orkestratörünüzün okuma ve yazma erişimine sahip olduğu bir dizinin tam yolu olmalıdır. Çalışma zamanında TFX, bileşen yapıları için çıkış yolları oluşturmak üzere ardışık düzen kökünü kullanır. Bu dizin yerel olabilir veya Google Cloud Storage ya da HDFS gibi desteklenen bir dağıtılmış dosya sisteminde olabilir.

  • components : Bu ardışık düzenin iş akışını oluşturan bileşen örneklerinin listesi.

  • enable-cache : (İsteğe bağlı.) Bu ardışık düzenin işlem hattı yürütmesini hızlandırmak için önbelleğe alma kullanıp kullanmadığını gösteren bir boole değeri.

  • metadata-connection-config : (İsteğe bağlı.) ML Meta Verileri için bir bağlantı yapılandırması.

Bileşen yürütme grafiğini tanımlama

Bileşen örnekleri, çıktı olarak yapıtlar üretir ve genellikle girdi olarak yukarı akış bileşen örnekleri tarafından üretilen yapıtlara bağlıdır. Bileşen örnekleri için yürütme sırası, yapı bağımlılıklarının yönlendirilmiş bir döngüsel olmayan grafiği (DAG) oluşturularak belirlenir.

Örneğin, ExampleGen standart bileşeni, bir CSV dosyasından veri alabilir ve seri hale getirilmiş örnek kayıtları çıkarabilir. StatisticsGen standart bileşeni, bu örnek kayıtları girdi olarak kabul eder ve veri kümesi istatistiklerini üretir. Bu örnekte, ExampleGen , SchemaGen çıktısına bağlı olduğundan, StatisticsGen örneğinin ExampleGen izlemesi gerekir.

Görev tabanlı bağımlılıklar

Görev tabanlı bağımlılıkları, bileşeninizin add_upstream_node ve add_downstream_node yöntemlerini kullanarak da tanımlayabilirsiniz. add_upstream_node , geçerli bileşenin, belirtilen bileşenden sonra yürütülmesi gerektiğini belirtmenizi sağlar. add_downstream_node , geçerli bileşenin belirtilen bileşenden önce yürütülmesi gerektiğini belirtmenizi sağlar.

Ardışık düzen şablonları

Bir işlem hattını hızlı bir şekilde kurmanın ve tüm parçaların nasıl bir araya geldiğini görmenin en kolay yolu bir şablon kullanmaktır. Şablonları kullanma, Yerel Olarak Bir TFX Ardışık Düzen Oluşturma bölümünde ele alınmıştır.

Önbelleğe almak

TFX ardışık düzeni önbelleğe alma, ardışık düzeninizin önceki bir ardışık düzen çalışmasında aynı girdi kümesiyle yürütülen bileşenleri atlamasına olanak tanır. Önbelleğe alma etkinleştirilirse, ardışık düzen her bileşenin, bileşenin ve girdi kümesinin imzasını bu ardışık düzenin önceki bileşen yürütmelerinden biriyle eşleştirmeye çalışır. Bir eşleşme varsa, ardışık düzen önceki çalıştırmanın bileşen çıktılarını kullanır. Bir eşleşme yoksa, bileşen yürütülür.

İşlem hattınız deterministik olmayan bileşenler kullanıyorsa önbelleğe almayı kullanmayın. Örneğin, işlem hattınız için rasgele bir sayı oluşturmak üzere bir bileşen oluşturursanız, önbelleği etkinleştirmek bu bileşenin bir kez çalıştırılmasına neden olur. Bu örnekte, sonraki çalıştırmalar, rasgele bir sayı oluşturmak yerine ilk çalıştırmanın rasgele sayısını kullanır.