Bu sayfa, Cloud Translation API ile çevrilmiştir.
Switch to English

TFX Ardışık Düzenlerini Anlamak

MLOps, makine öğrenimi (ML) iş akışlarının otomatikleştirilmesine, yönetilmesine ve denetlenmesine yardımcı olmak için DevOps uygulamalarını uygulama uygulamasıdır. Makine öğrenimi iş akışları şu adımları içerir:

  • Verileri hazırlayın, analiz edin ve dönüştürün.
  • Bir modeli eğitin ve değerlendirin.
  • Eğitimli modelleri üretime dağıtın.
  • Makine öğrenimi yapılarını izleyin ve bağımlılıklarını anlayın.

Bu adımları anlık bir şekilde yönetmek zor ve zaman alıcı olabilir.

TFX, ML sürecinizi Apache Airflow, Apache Beam ve Kubeflow Pipelines gibi çeşitli orkestratörlerde düzenlemenize yardımcı olan bir araç seti sağlayarak MLOps'u uygulamayı kolaylaştırır. İş akışınızı bir TFX işlem hattı olarak uygulayarak şunları yapabilirsiniz:

  • Modelinizi düzenli olarak yeniden eğitmenize, değerlendirmenize ve dağıtmanıza olanak tanıyan makine öğrenimi sürecinizi otomatikleştirin.
  • Büyük veri kümelerini ve iş yüklerini işlemek için dağıtılmış işlem kaynaklarını kullanın.
  • Farklı hiperparametre kümeleriyle bir ardışık düzen çalıştırarak deney hızını artırın.

Bu kılavuz, TFX işlem hatlarını anlamak için gereken temel kavramları açıklamaktadır.

Artefakt

Bir TFX işlem hattındaki adımların çıktıları yapay nesneler olarak adlandırılır. İş akışınızdaki sonraki adımlar, bu yapıları girdi olarak kullanabilir. Bu şekilde, TFX, iş akışı adımları arasında veri aktarmanızı sağlar.

Örneğin, ExampleGen standart bileşeni, StatisticsGen standart bileşeni gibi bileşenlerin girdi olarak kullandığı serileştirilmiş örnekler ExampleGen .

Yapılar, ML Meta Veri deposuna kayıtlı bir yapı türü ile güçlü bir şekilde yazılmalıdır. Makine Öğrenimi Meta Verisinde kullanılan kavramlar hakkında daha fazla bilgi edinin.

Yapı türlerinin bir adı vardır ve özelliklerinin bir şemasını tanımlar. Yapı türü adları, ML Meta Verileri deponuzda benzersiz olmalıdır. TFX, karmaşık veri türlerini ve değer türlerini açıklayan birkaç standart yapay nesne türü sağlar; örneğin: dize, tam sayı ve kayan nokta. Bu yapay nesne türlerini yeniden kullanabilir veya Artifact türetilen özel yapı türlerini tanımlayabilirsiniz.

Parametre

Parametreler, ardışık düzeniniz yürütülmeden önce bilinen boru hatlarının girdileridir. Parametreler, kod yerine yapılandırma yoluyla bir ardışık düzenin veya bir ardışık düzenin bir parçasının davranışını değiştirmenize olanak tanır.

Örneğin, ardışık düzen kodunu değiştirmeden farklı hiperparametre kümeleriyle bir ardışık düzen çalıştırmak için parametreleri kullanabilirsiniz.

Parametrelerin kullanılması, ardışık düzeninizi farklı parametre kümeleriyle çalıştırmayı kolaylaştırarak deneme hızını artırmanıza olanak tanır.

RuntimeParameter sınıfı hakkında daha fazla bilgi edinin.

Bileşen

Bileşen , TFX ardışık düzeninizde bir adım olarak kullanabileceğiniz bir ML görevinin uygulamasıdır. Bileşenler şunlardan oluşur:

  • Bileşenin girdi ve çıktı yapıtlarını ve bileşenin gerekli parametrelerini tanımlayan bir bileşen belirtimi.
  • ML iş akışınızda verileri almak ve dönüştürmek veya bir modeli eğitmek ve değerlendirmek gibi bir adımı gerçekleştirmek için kodu uygulayan bir yürütücü.
  • Bir boru hattında kullanılmak üzere bileşen özelliklerini ve yürütücüyü paketleyen bir bileşen arayüzü.

TFX, ardışık düzenlerinizde kullanabileceğiniz birkaç standart bileşen sağlar. Bu bileşenler ihtiyaçlarınızı karşılamıyorsa, özel bileşenler oluşturabilirsiniz. Özel bileşenler hakkında daha fazla bilgi edinin .

Boru hattı

TFX ardışık düzeni, Apache Airflow, Apache Beam ve Kubeflow Pipelines gibi çeşitli düzenleyicilerde çalıştırılabilen bir ML iş akışının taşınabilir bir uygulamasıdır. Bir boru hattı, bileşen örneklerinden ve girdi parametrelerinden oluşur.

Bileşen örnekleri, çıktı olarak yapay nesneler üretir ve genellikle girdi olarak yukarı akış bileşen örneklerinin ürettiği yapılara bağlıdır. Bileşen örneklerinin yürütme sırası, artefakt bağımlılıklarının yönlendirilmiş döngüsel olmayan grafiğini oluşturarak belirlenir.

Örneğin, aşağıdakileri yapan bir ardışık düzen düşünün:

  • Özel bir bileşen kullanarak verileri doğrudan tescilli bir sistemden alır.
  • StatisticsGen standart bileşenini kullanarak eğitim verileri için istatistikleri hesaplar.
  • SchemaGen standart bileşenini kullanarak bir veri şeması oluşturur.
  • ExampleValidator standart bileşenini kullanarak eğitim verilerini anormallikler açısından kontrol eder.
  • Transform standart bileşenini kullanarak veri kümesi üzerinde özellik mühendisliği gerçekleştirir.
  • Trainer standart bileşenini kullanarak bir modeli eğitir.
  • Değerlendirici bileşenini kullanarak eğitilmiş modeli değerlendirir.
  • Model değerlendirmesini geçerse, boru hattı eğitilmiş modeli özel bir bileşen kullanarak özel bir dağıtım sistemine sıralar.

Bileşen örneklerinin yürütme sırasını belirlemek için TFX, artefakt bağımlılıklarını analiz eder.

  • Veri besleme bileşeninin herhangi bir yapay bağımlılığı yoktur, bu nedenle grafikteki ilk düğüm olabilir.
  • StatisticsGen, veri alımıyla üretilen örneklere bağlıdır, bu nedenle veri alımından sonra yürütülmesi gerekir.
  • SchemaGen, StatisticsGen tarafından oluşturulan istatistiklere bağlıdır, bu nedenle StatisticsGen'den sonra çalıştırılmalıdır.
  • ExampleValidator yüzden StatisticsGen ve SchemaGen sonra infaz edilmelidir StatisticsGen ve SchemaGen yarattığı şema tarafından oluşturulan istatistiklere göre değişir.
  • Dönüşüm, veri alımıyla üretilen örneklere ve SchemaGen tarafından oluşturulan şemaya bağlıdır, bu nedenle veri alımından ve SchemaGen'den sonra yürütülmesi gerekir.
  • Eğitmen, veri alımıyla üretilen örneklere , SchemaGen tarafından oluşturulan şemaya ve Transform tarafından üretilen kaydedilmiş modele bağlıdır . Eğitmen yalnızca veri alımından, SchemaGen'den ve Dönüşümden sonra çalıştırılabilir.
  • Değerlendirici, veri alımıyla üretilen örneklere ve Eğitmen tarafından üretilen kaydedilmiş modele bağlıdır, bu nedenle veri alımından ve Eğiticiden sonra yürütülmelidir.
  • Özel konuşlandırıcı, Eğitmen tarafından üretilen kaydedilmiş modele ve Değerlendirici tarafından oluşturulan analiz sonuçlarına bağlıdır, bu nedenle konuşlandırıcı, Eğitmen ve Değerlendiriciden sonra yürütülmelidir.

Bu analize dayanarak, bir orkestratör şunları çalıştırır:

  • Sırayla veri alımı, StatisticsGen, SchemaGen bileşen örnekleri.
  • ExampleValidator ve Transform bileşenleri, girdi yapı bağımlılıklarını paylaştıkları ve birbirlerinin çıktılarına bağlı olmadıkları için paralel olarak çalışabilir.
  • Dönüştürme bileşeni tamamlandıktan sonra, Eğitmen, Değerlendirici ve özel konuşlandırıcı bileşen örnekleri sıralı olarak çalışır.

Bir TFX ardışık düzeni oluşturma hakkında daha fazla bilgi edinin.

TFX Boru Hattı Şablonu

TFX Ardışık Düzen Şablonları, kullanım durumunuz için özelleştirebileceğiniz önceden oluşturulmuş bir ardışık düzen sağlayarak ardışık düzen geliştirmeye başlamayı kolaylaştırır.

Bir TFX işlem hattı şablonunu özelleştirme hakkında daha fazla bilgi edinin.

Boru Hattı Çalıştırma

Bir çalıştırma, bir ardışık düzenin tek bir yürütmesidir.

Orkestratör

Orkestratör, ardışık düzen çalıştırmalarını yürütebileceğiniz bir sistemdir. TFX, Apache Airflow , Apache Beam ve Kubeflow Pipelines gibi orkestratörleri destekler. TFX, bir orkestratörü destekleyen bir uygulamaya atıfta bulunmak için DagRunner terimini de kullanır.