TFX İşlem Hatlarını Anlama

MLOps, makine öğrenimi (ML) iş akışlarını otomatikleştirmeye, yönetmeye ve denetlemeye yardımcı olmak için DevOps uygulamalarını uygulama pratiğidir. ML iş akışları aşağıdaki adımları içerir:

  • Verileri hazırlayın, analiz edin ve dönüştürün.
  • Bir modeli eğitin ve değerlendirin.
  • Eğitimli modelleri üretime dağıtın.
  • ML yapılarını izleyin ve bağımlılıklarını anlayın.

Bu adımları geçici bir şekilde yönetmek zor ve zaman alıcı olabilir.

TFX, Apache Airflow, Apache Beam ve Kubeflow Pipelines gibi çeşitli düzenleyicilerde ML sürecinizi düzenlemenize yardımcı olan bir araç seti sağlayarak MLO'ları uygulamayı kolaylaştırır. İş akışınızı bir TFX ardışık düzeni olarak uygulayarak şunları yapabilirsiniz:

  • Modelinizi düzenli olarak yeniden eğitmenize, değerlendirmenize ve dağıtmanıza olanak tanıyan ML sürecinizi otomatikleştirin.
  • Büyük veri kümelerini ve iş yüklerini işlemek için dağıtılmış bilgi işlem kaynaklarından yararlanın.
  • Farklı hiper parametre kümeleriyle bir işlem hattı çalıştırarak deneme hızını artırın.

Bu kılavuz, TFX işlem hatlarını anlamak için gereken temel kavramları açıklar.

eser

Bir TFX işlem hattındaki adımların çıktılarına yapıtlar denir. İş akışınızdaki sonraki adımlar, bu yapıları girdi olarak kullanabilir. Bu şekilde TFX, iş akışı adımları arasında veri aktarmanıza olanak tanır.

Örneğin, ExampleGen standart bileşeni, StatisticsGen standart bileşeni gibi bileşenlerin girdi olarak kullandığı serileştirilmiş örnekler yayar.

Yapılar, ML Meta Veri deposunda kayıtlı bir yapı türüyle kesinlikle yazılmalıdır. ML Meta Verilerinde kullanılan kavramlar hakkında daha fazla bilgi edinin.

Artefakt türlerinin bir adı vardır ve özelliklerinin bir şemasını tanımlar. Yapı türü adları, ML Meta Veri deponuzda benzersiz olmalıdır. TFX, dize, tamsayı ve kayan nokta gibi karmaşık veri türlerini ve değer türlerini tanımlayan birkaç standart yapı türü sağlar. Bu yapı türlerini yeniden kullanabilir veya Artifact türetilen özel yapı türlerini tanımlayabilirsiniz.

Parametre

Parametreler, işlem hattınız yürütülmeden önce bilinen işlem hatlarına girdilerdir. Parametreler, kod yerine yapılandırma yoluyla bir işlem hattının veya işlem hattının bir bölümünün davranışını değiştirmenize olanak tanır.

Örneğin, ardışık düzenin kodunu değiştirmeden farklı hiper parametre kümeleriyle bir işlem hattı çalıştırmak için parametreleri kullanabilirsiniz.

Parametreleri kullanmak, ardışık düzeninizi farklı parametre kümeleriyle çalıştırmayı kolaylaştırarak deneme hızını artırmanıza olanak tanır.

RuntimeParameter sınıfı hakkında daha fazla bilgi edinin.

Bileşen

Bileşen , TFX ardışık düzeninizde bir adım olarak kullanabileceğiniz bir makine öğrenimi görevinin uygulamasıdır. Bileşenler şunlardan oluşur:

  • Bileşenin giriş ve çıkış yapılarını ve bileşenin gerekli parametrelerini tanımlayan bir bileşen belirtimi.
  • Verileri alma ve dönüştürme veya bir modeli eğitme ve değerlendirme gibi ML iş akışınızda bir adımı gerçekleştirmek için kodu uygulayan bir yürütücü.
  • Bir işlem hattında kullanım için bileşen belirtimini ve yürütücüyü paketleyen bir bileşen arabirimi.

TFX, işlem hatlarınızda kullanabileceğiniz birkaç standart bileşen sağlar. Bu bileşenler ihtiyaçlarınızı karşılamıyorsa, özel bileşenler oluşturabilirsiniz. Özel bileşenler hakkında daha fazla bilgi edinin .

Boru hattı

TFX işlem hattı, Apache Airflow, Apache Beam ve Kubeflow Pipelines gibi çeşitli düzenleyicilerde çalıştırılabilen bir makine öğrenimi iş akışının taşınabilir bir uygulamasıdır. Bir işlem hattı, bileşen örneklerinden ve giriş parametrelerinden oluşur.

Bileşen örnekleri, çıktılar olarak yapıtlar üretir ve tipik olarak, girdi olarak yukarı akış bileşen örnekleri tarafından üretilen yapılara bağlıdır. Bileşen örnekleri için yürütme sırası, yapıt bağımlılıklarının yönlendirilmiş bir döngüsel olmayan grafiği oluşturularak belirlenir.

Örneğin, aşağıdakileri yapan bir işlem hattı düşünün:

  • Özel bir bileşen kullanarak verileri doğrudan özel bir sistemden alır.
  • İstatistiklerGen standart bileşenini kullanarak eğitim verileri için istatistikleri hesaplar.
  • SchemaGen standart bileşenini kullanarak bir veri şeması oluşturur.
  • ExampleValidator standart bileşenini kullanarak eğitim verilerini anormalliklere karşı kontrol eder.
  • Transform standart bileşenini kullanarak veri kümesinde özellik mühendisliği gerçekleştirir.
  • Trainer standart bileşenini kullanarak bir modeli eğitir.
  • Evaluator bileşenini kullanarak eğitilmiş modeli değerlendirir.
  • Model değerlendirmesini geçerse, işlem hattı özel bir bileşen kullanarak eğitilmiş modeli özel bir dağıtım sistemine kuyruğa alır.

Bileşen örneklerinin yürütme sırasını belirlemek için TFX, yapıt bağımlılıklarını analiz eder.

  • Veri alma bileşeninin herhangi bir yapı bağımlılığı yoktur, bu nedenle grafikteki ilk düğüm olabilir.
  • İstatistikGen, veri alımı tarafından üretilen örneklere bağlıdır, bu nedenle veri alımından sonra çalıştırılmalıdır.
  • SchemaGen, StatisticsGen tarafından oluşturulan istatistiklere bağlıdır, bu nedenle StatisticsGen'den sonra yürütülmesi gerekir.
  • ExampleValidator, StatisticsGen tarafından oluşturulan istatistiklere ve SchemaGen tarafından oluşturulan şemaya bağlıdır, bu nedenle StatisticsGen ve SchemaGen'den sonra yürütülmelidir.
  • Dönüşüm, veri alımı tarafından üretilen örneklere ve SchemaGen tarafından oluşturulan şemaya bağlıdır, bu nedenle veri alımından ve SchemaGen'den sonra yürütülmelidir.
  • Eğitmen, veri alımı tarafından üretilen örneklere , SchemaGen tarafından oluşturulan şemaya ve Transform tarafından üretilen kaydedilen modele bağlıdır. Eğitmen yalnızca veri alımı, SchemaGen ve Dönüştürmeden sonra yürütülebilir.
  • Değerlendirici, veri alımı tarafından üretilen örneklere ve Eğitmen tarafından üretilen kayıtlı modele bağlıdır, bu nedenle veri alımından ve Eğitmen'den sonra yürütülmelidir.
  • Özel konuşlandırıcı, Eğitmen tarafından üretilen kayıtlı modele ve Değerlendirici tarafından oluşturulan analiz sonuçlarına bağlıdır, bu nedenle konuşlandırıcı, Eğitmen ve Değerlendiriciden sonra yürütülmelidir.

Bu analize dayanarak, bir orkestratör şunları çalıştırır:

  • Veri alımı, StatisticsGen, SchemaGen bileşen örnekleri sırayla.
  • ExampleValidator ve Transform bileşenleri, girdi yapı bağımlılıklarını paylaştıklarından ve birbirlerinin çıktısına bağlı olmadıklarından paralel olarak çalışabilir.
  • Dönüştür bileşeni tamamlandıktan sonra Eğitmen, Değerlendirici ve özel dağıtımcı bileşeni örnekleri sırayla çalışır.

TFX işlem hattı oluşturma hakkında daha fazla bilgi edinin.

TFX Ardışık Düzen Şablonu

TFX İşlem Hattı Şablonları, kullanım durumunuz için özelleştirebileceğiniz önceden oluşturulmuş bir işlem hattı sağlayarak işlem hattı geliştirmeye başlamayı kolaylaştırır.

TFX işlem hattı şablonunu özelleştirme hakkında daha fazla bilgi edinin.

Boru Hattı Çalıştırması

Çalıştırma, bir işlem hattının tek bir yürütmesidir.

Orkestratör

Orkestratör, ardışık düzen çalıştırmalarını yürütebileceğiniz bir sistemdir. TFX, Apache Airflow , Apache Beam ve Kubeflow Pipelines gibi düzenleyicileri destekler. TFX ayrıca bir düzenleyiciyi destekleyen bir uygulamaya atıfta bulunmak için DagRunner terimini kullanır.