MLOps, makine öğrenimi (ML) iş akışlarını otomatikleştirmeye, yönetmeye ve denetlemeye yardımcı olmak için DevOps uygulamalarını uygulama pratiğidir. Makine öğrenimi iş akışları şu adımları içerir:
- Verileri hazırlayın, analiz edin ve dönüştürün.
- Bir modeli eğitin ve değerlendirin.
- Eğitimli modelleri üretime dağıtın.
- Makine öğrenimi yapılarını izleyin ve bağımlılıklarını anlayın.
Bu adımları geçici bir şekilde yönetmek zor ve zaman alıcı olabilir.
TFX, ML işleminizi Apache Airflow, Apache Beam ve Kubeflow Pipelines gibi çeşitli düzenleyicilerde düzenlemenize yardımcı olan bir araç seti sağlayarak MLOps'u uygulamayı kolaylaştırır. İş akışınızı bir TFX işlem hattı olarak uygulayarak şunları yapabilirsiniz:
- Modelinizi düzenli olarak yeniden eğitmenize, değerlendirmenize ve dağıtmanıza olanak tanıyan makine öğrenimi sürecinizi otomatikleştirin.
- Büyük veri kümelerini ve iş yüklerini işlemek için dağıtılmış bilgi işlem kaynaklarından yararlanın.
- Farklı hiperparametre kümeleriyle bir ardışık düzen çalıştırarak deney hızını artırın.
Bu kılavuz, TFX ardışık düzenlerini anlamak için gereken temel kavramları açıklar.
eser
Bir TFX işlem hattındaki adımların çıktılarına yapay yapılar denir. İş akışınızdaki sonraki adımlar, bu yapıtları girdi olarak kullanabilir. Bu şekilde TFX, iş akışı adımları arasında veri aktarmanıza izin verir.
Örneğin, ExampleGen
standart bileşeni, StatisticsGen
standart bileşeni gibi bileşenlerin girdi olarak kullandığı seri hale getirilmiş örnekler yayar.
Yapıtlar, ML Meta Verileri deposunda kayıtlı bir yapı tipiyle kesin olarak yazılmalıdır. ML Meta Verilerinde kullanılan kavramlar hakkında daha fazla bilgi edinin.
Yapı türlerinin bir adı vardır ve özelliklerinin bir şemasını tanımlar. Yapı türü adları, ML Meta Veri deponuzda benzersiz olmalıdır. TFX, karmaşık veri türlerini ve değer türlerini tanımlayan birkaç standart yapı türü sağlar: dize, tamsayı ve kayan nokta. Bu yapı türlerini yeniden kullanabilir veya Artifact
türetilen özel yapı türleri tanımlayabilirsiniz.
Parametre
Parametreler, ardışık düzeniniz yürütülmeden önce bilinen ardışık düzen girdileridir. Parametreler, kod yerine yapılandırma aracılığıyla bir ardışık düzenin veya bir ardışık düzenin bir bölümünün davranışını değiştirmenize olanak tanır.
Örneğin, ardışık düzenin kodunu değiştirmeden farklı hiperparametre kümeleriyle bir ardışık düzen çalıştırmak için parametreleri kullanabilirsiniz.
Parametreleri kullanmak, ardışık düzeninizi farklı parametre kümeleriyle çalıştırmayı kolaylaştırarak deneme hızını artırmanıza olanak tanır.
RuntimeParameter sınıfı hakkında daha fazla bilgi edinin.
Bileşen
Bileşen, TFX işlem hattınızda bir adım olarak kullanabileceğiniz bir makine öğrenimi görevi uygulamasıdır. Bileşenler şunlardan oluşur:
- Bileşenin girdi ve çıktı yapıtlarını ve bileşenin gerekli parametrelerini tanımlayan bir bileşen belirtimi.
- ML iş akışınızda verileri alma ve dönüştürme veya bir modeli eğitme ve değerlendirme gibi bir adımı gerçekleştirmek için kodu uygulayan bir yürütücü.
- Bir işlem hattında kullanılmak üzere bileşen belirtimini ve yürütücüyü paketleyen bir bileşen arabirimi.
TFX, işlem hatlarınızda kullanabileceğiniz çeşitli standart bileşenler sağlar. Bu bileşenler ihtiyaçlarınızı karşılamıyorsa, özel bileşenler oluşturabilirsiniz. Özel bileşenler hakkında daha fazla bilgi edinin .
Boru hattı
TFX ardışık düzeni, Apache Airflow, Apache Beam ve Kubeflow Pipelines gibi çeşitli düzenleyicilerde çalıştırılabilen bir makine öğrenimi iş akışının taşınabilir bir uygulamasıdır. Bir ardışık düzen, bileşen örneklerinden ve giriş parametrelerinden oluşur.
Bileşen örnekleri, çıktı olarak yapıtlar üretir ve genellikle girdi olarak yukarı akış bileşen örnekleri tarafından üretilen yapıtlara bağlıdır. Bileşen örnekleri için yürütme sırası, yapı bağımlılıklarının yönlendirilmiş bir döngüsel olmayan grafiği oluşturularak belirlenir.
Örneğin, aşağıdakileri yapan bir işlem hattını düşünün:
- Özel bir bileşen kullanarak verileri doğrudan tescilli bir sistemden alır.
- StatisticsGen standart bileşenini kullanarak eğitim verileri için istatistikleri hesaplar.
- SchemaGen standart bileşenini kullanarak bir veri şeması oluşturur.
- ExampleValidator standart bileşenini kullanarak eğitim verilerini anormalliklere karşı kontrol eder.
- Transform standart bileşenini kullanarak veri kümesi üzerinde özellik mühendisliği gerçekleştirir.
- Trainer standart bileşenini kullanarak bir modeli eğitir.
- Değerlendirici bileşenini kullanarak eğitilen modeli değerlendirir.
- Model değerlendirmesini geçerse, ardışık düzen, eğitilmiş modeli özel bir bileşen kullanarak tescilli bir dağıtım sistemine sıkıştırır.
Bileşen örnekleri için yürütme sırasını belirlemek için TFX yapı bağımlılıklarını analiz eder.
- Veri alma bileşeninin herhangi bir yapı bağımlılığı yoktur, dolayısıyla grafikteki ilk düğüm olabilir.
- StatisticsGen, veri alımıyla üretilen örneklere bağlıdır, bu nedenle veri alımından sonra çalıştırılmalıdır.
- SchemaGen, StatisticsGen tarafından oluşturulan istatistiklere bağlıdır, bu nedenle StatisticsGen'den sonra çalıştırılmalıdır.
- ExampleValidator, StatisticsGen tarafından oluşturulan istatistiklere ve SchemaGen tarafından oluşturulan şemaya bağlıdır, bu nedenle, StatisticsGen ve SchemaGen'den sonra çalıştırılmalıdır.
- Dönüşüm, veri alımıyla üretilen örneklere ve SchemaGen tarafından oluşturulan şemaya bağlıdır, bu nedenle veri alımından ve SchemaGen'den sonra yürütülmelidir.
- Eğitmen, veri alımıyla üretilen örneklere , SchemaGen tarafından oluşturulan şemaya ve Transform tarafından üretilen kayıtlı modele bağlıdır. Eğitmen yalnızca veri alımı, SchemaGen ve Dönüştürmeden sonra yürütülebilir.
- Değerlendirici, veri alımıyla üretilen örneklere ve Eğitmen tarafından üretilen kayıtlı modele bağlıdır, bu nedenle veri alımından ve Eğitmen'den sonra yürütülmelidir.
- Özel konuşlandırıcı, Eğitmen tarafından oluşturulan kaydedilmiş modele ve Değerlendirici tarafından oluşturulan analiz sonuçlarına bağlıdır, bu nedenle konuşlandırıcı, Eğitmen ve Değerlendiriciden sonra yürütülmelidir.
Bu analize dayanarak, bir orkestratör şunları çalıştırır:
- Veri alımı, StatisticsGen, SchemaGen bileşen örnekleri sırayla.
- ExampleValidator ve Transform bileşenleri, girdi yapay bağımlılıklarını paylaştıklarından ve birbirlerinin çıktısına bağımlı olmadıklarından paralel olarak çalışabilirler.
- Dönüştürme bileşeni tamamlandıktan sonra Eğitmen, Değerlendirici ve özel dağıtım bileşeni örnekleri sırayla çalışır.
TFX ardışık düzeni oluşturma hakkında daha fazla bilgi edinin.
TFX Ardışık Düzen Şablonu
TFX İşlem Hattı Şablonları, kullanım durumunuz için özelleştirebileceğiniz önceden oluşturulmuş bir işlem hattı sağlayarak işlem hattı geliştirmeye başlamayı kolaylaştırır.
Bir TFX işlem hattı şablonunu özelleştirme hakkında daha fazla bilgi edinin.
Boru Hattı Çalıştırması
Çalıştırma, bir işlem hattının tek bir yürütmesidir.
Orkestratör
Orchestrator, işlem hattı çalıştırmalarını yürütebileceğiniz bir sistemdir. TFX, Apache Airflow , Apache Beam ve Kubeflow Pipelines gibi düzenleyicileri destekler. TFX, bir orkestratörü destekleyen bir uygulamaya atıfta bulunmak için DagRunner terimini de kullanır.