Pipeline
sınıfını kullanma
TFX işlem hatları, Pipeline
sınıfı kullanılarak tanımlanır. Aşağıdaki örnek, Pipeline
sınıfının nasıl kullanılacağını gösterir.
pipeline.Pipeline( pipeline_name=pipeline-name, pipeline_root=pipeline-root, components=components, enable_cache=enable-cache, metadata_connection_config=metadata-connection-config, )
Aşağıdakileri değiştirin:
pipeline-name : Bu boru hattının adı. İşlem hattı adı benzersiz olmalıdır.
TFX, bileşen girdi yapıtları için ML Meta Verilerini sorgularken ardışık düzen adını kullanır. Bir işlem hattı adının yeniden kullanılması beklenmeyen davranışlara neden olabilir.
pipeline-root : Bu boru hattının çıktılarının kök yolu. Kök yol, orkestratörünüzün okuma ve yazma erişimine sahip olduğu bir dizinin tam yolu olmalıdır. Çalışma zamanında TFX, bileşen yapıları için çıkış yolları oluşturmak üzere ardışık düzen kökünü kullanır. Bu dizin yerel olabilir veya Google Cloud Storage ya da HDFS gibi desteklenen bir dağıtılmış dosya sisteminde olabilir.
components : Bu ardışık düzenin iş akışını oluşturan bileşen örneklerinin listesi.
enable-cache : (İsteğe bağlı.) Bu ardışık düzenin işlem hattı yürütmesini hızlandırmak için önbelleğe alma kullanıp kullanmadığını gösteren bir boole değeri.
metadata-connection-config : (İsteğe bağlı.) ML Meta Verileri için bir bağlantı yapılandırması.
Bileşen yürütme grafiğini tanımlama
Bileşen örnekleri, çıktı olarak yapıtlar üretir ve genellikle girdi olarak yukarı akış bileşen örnekleri tarafından üretilen yapıtlara bağlıdır. Bileşen örnekleri için yürütme sırası, yapı bağımlılıklarının yönlendirilmiş bir döngüsel olmayan grafiği (DAG) oluşturularak belirlenir.
Örneğin, ExampleGen
standart bileşeni, bir CSV dosyasından veri alabilir ve seri hale getirilmiş örnek kayıtları çıkarabilir. StatisticsGen
standart bileşeni, bu örnek kayıtları girdi olarak kabul eder ve veri kümesi istatistiklerini üretir. Bu örnekte, ExampleGen
, SchemaGen
çıktısına bağlı olduğundan, StatisticsGen
örneğinin ExampleGen
izlemesi gerekir.
Görev tabanlı bağımlılıklar
Görev tabanlı bağımlılıkları, bileşeninizin add_upstream_node
ve add_downstream_node
yöntemlerini kullanarak da tanımlayabilirsiniz. add_upstream_node
, geçerli bileşenin, belirtilen bileşenden sonra yürütülmesi gerektiğini belirtmenizi sağlar. add_downstream_node
, geçerli bileşenin belirtilen bileşenden önce yürütülmesi gerektiğini belirtmenizi sağlar.
Ardışık düzen şablonları
Bir işlem hattını hızlı bir şekilde kurmanın ve tüm parçaların nasıl bir araya geldiğini görmenin en kolay yolu bir şablon kullanmaktır. Şablonları kullanma, Yerel Olarak Bir TFX Ardışık Düzen Oluşturma bölümünde ele alınmıştır.
Önbelleğe almak
TFX ardışık düzeni önbelleğe alma, ardışık düzeninizin önceki bir ardışık düzen çalışmasında aynı girdi kümesiyle yürütülen bileşenleri atlamasına olanak tanır. Önbelleğe alma etkinleştirilirse, ardışık düzen her bileşenin, bileşenin ve girdi kümesinin imzasını bu ardışık düzenin önceki bileşen yürütmelerinden biriyle eşleştirmeye çalışır. Bir eşleşme varsa, ardışık düzen önceki çalıştırmanın bileşen çıktılarını kullanır. Bir eşleşme yoksa, bileşen yürütülür.
İşlem hattınız deterministik olmayan bileşenler kullanıyorsa önbelleğe almayı kullanmayın. Örneğin, işlem hattınız için rasgele bir sayı oluşturmak üzere bir bileşen oluşturursanız, önbelleği etkinleştirmek bu bileşenin bir kez çalıştırılmasına neden olur. Bu örnekte, sonraki çalıştırmalar, rasgele bir sayı oluşturmak yerine ilk çalıştırmanın rasgele sayısını kullanır.