MLOps هي ممارسة تطبيق ممارسات DevOps للمساعدة في أتمتة تدفقات سير عمل التعلم الآلي (ML) وإدارتها ومراجعتها. تتضمن تدفقات عمل ML خطوات من أجل:
- تحضير البيانات وتحليلها وتحويلها.
- تدريب وتقييم النموذج.
- نشر النماذج المدربة للإنتاج.
- تتبع آثار ML وفهم تبعياتها.
قد تكون إدارة هذه الخطوات بطريقة مخصصة أمرًا صعبًا وتستغرق وقتًا طويلاً.
تسهل TFX تنفيذ MLOps من خلال توفير مجموعة أدوات تساعدك على تنظيم عملية ML الخاصة بك على منسقين مختلفين ، مثل: Apache Airflow و Apache Beam و Kubeflow Pipelines. من خلال تنفيذ سير العمل الخاص بك كخط أنابيب TFX ، يمكنك:
- أتمتة عملية التعلم الآلي الخاصة بك ، مما يتيح لك إعادة تدريب نموذجك وتقييمه ونشره بانتظام.
- استخدم موارد الحوسبة الموزعة لمعالجة مجموعات البيانات الكبيرة وأعباء العمل.
- قم بزيادة سرعة التجربة عن طريق تشغيل خط أنابيب بمجموعات مختلفة من المعلمات الفائقة.
يصف هذا الدليل المفاهيم الأساسية المطلوبة لفهم خطوط أنابيب TFX.
الأداة
تسمى مخرجات الخطوات في خط أنابيب TFX بالتركيبات . قد تستخدم الخطوات اللاحقة في سير العمل هذه العناصر الأثرية كمدخلات. بهذه الطريقة ، يتيح لك TFX نقل البيانات بين خطوات سير العمل.
على سبيل المثال ، يصدر المكون القياسي ExampleGen
أمثلة متسلسلة ، والتي تستخدم مكونات مثل المكون القياسي StatisticsGen
كمدخلات.
يجب كتابة القطع الأثرية بقوة باستخدام نوع الأداة المسجلة في مخزن بيانات تعريف ML . تعرف على المزيد حول المفاهيم المستخدمة في بيانات تعريف ML .
أنواع القطع الأثرية لها اسم وتحدد مخططًا لخصائصها. يجب أن تكون أسماء أنواع القطع الأثرية فريدة في متجر ML Metadata. يوفر TFX العديد من أنواع القطع الأثرية القياسية التي تصف أنواع البيانات المعقدة وأنواع القيم ، مثل: سلسلة وعدد صحيح وعائم. يمكنك إعادة استخدام هذه الأنواع الأثرية أو تحديد أنواع القطع الأثرية المخصصة المشتقة من Artifact
.
معامل
المعلمات هي مدخلات إلى خطوط الأنابيب المعروفة قبل تنفيذ خط الأنابيب الخاص بك. تتيح لك المعلمات تغيير سلوك خط أنابيب أو جزء من خط أنابيب من خلال التكوين بدلاً من التعليمات البرمجية.
على سبيل المثال ، يمكنك استخدام المعلمات لتشغيل خط أنابيب بمجموعات مختلفة من المعلمات التشعبية دون تغيير رمز خط الأنابيب.
يتيح لك استخدام المعلمات زيادة سرعة التجربة من خلال تسهيل تشغيل خط الأنابيب الخاص بك بمجموعات مختلفة من المعلمات.
تعرف على المزيد حول فئة RuntimeParameter .
عنصر
المكون هو تنفيذ مهمة تعلم الآلة التي يمكنك استخدامها كخطوة في خط أنابيب TFX الخاص بك. تتكون المكونات من:
- مواصفات المكون ، التي تحدد عناصر المدخلات والمخرجات للمكون ، والمعاملات المطلوبة للمكون.
- المنفذ ، الذي ينفذ الكود لتنفيذ خطوة في سير عمل ML الخاص بك ، مثل استيعاب البيانات وتحويلها أو التدريب وتقييم النموذج.
- واجهة مكون ، تحزم مواصفات المكون والمنفذ للاستخدام في خط الأنابيب.
يوفر TFX العديد من المكونات القياسية التي يمكنك استخدامها في خطوط الأنابيب الخاصة بك. إذا كانت هذه المكونات لا تلبي احتياجاتك ، يمكنك إنشاء مكونات مخصصة. تعرف على المزيد حول المكونات المخصصة .
خط انابيب
خط أنابيب TFX هو تنفيذ محمول لسير عمل ML يمكن تشغيله على منسقين مختلفين ، مثل: Apache Airflow و Apache Beam و Kubeflow Pipelines. يتكون خط الأنابيب من مثيلات المكون ومعلمات الإدخال.
تنتج مثيلات المكونات مصنوعات كمخرجات وتعتمد عادةً على المصنوعات التي تنتجها مثيلات المكون الرئيسي كمدخلات. يتم تحديد تسلسل التنفيذ لمثيلات المكون من خلال إنشاء رسم بياني لا دوري موجه للاعتماديات الأثرية.
على سبيل المثال ، ضع في اعتبارك خط أنابيب يقوم بما يلي:
- يستوعب البيانات مباشرة من نظام خاص باستخدام مكون مخصص.
- تحسب الإحصائيات الخاصة ببيانات التدريب باستخدام المكون القياسي StatisticsGen.
- ينشئ مخطط بيانات باستخدام مكون SchemaGen القياسي.
- يتحقق من بيانات التدريب بحثًا عن الانحرافات باستخدام المكون القياسي ExampleValidator.
- ينفذ هندسة المعالم على مجموعة البيانات باستخدام مكون التحويل القياسي.
- يقوم بتدريب نموذج باستخدام المكون القياسي للمدرب.
- يقيم النموذج المدرب باستخدام مكون المقيم.
- إذا اجتاز النموذج تقييمه ، يقوم خط الأنابيب بإدراج النموذج المدرب في قائمة نظام نشر خاص باستخدام مكون مخصص.
لتحديد تسلسل التنفيذ لمثيلات المكون ، يحلل TFX تبعيات الأداة.
- لا يحتوي مكوِّن عرض البيانات على أي تبعيات أثرية ، لذا يمكن أن يكون العقدة الأولى في الرسم البياني.
- تعتمد StatisticsGen على الأمثلة الناتجة عن استيعاب البيانات ، لذا يجب تنفيذها بعد استيعاب البيانات.
- يعتمد SchemaGen على الإحصائيات التي أنشأتها StatisticsGen ، لذلك يجب تنفيذها بعد StatisticsGen.
- يعتمد ExampleValidator على الإحصائيات التي تم إنشاؤها بواسطة StatisticsGen والمخطط الذي تم إنشاؤه بواسطة SchemaGen ، لذلك يجب تنفيذه بعد StatisticsGen و SchemaGen.
- يعتمد التحويل على الأمثلة الناتجة عن استيعاب البيانات والمخطط الذي تم إنشاؤه بواسطة SchemaGen ، لذلك يجب تنفيذه بعد استيعاب البيانات و SchemaGen.
- يعتمد المدرب على الأمثلة الناتجة عن استيعاب البيانات ، والمخطط الذي أنشأه SchemaGen ، والنموذج المحفوظ الذي أنتجه Transform. لا يمكن تنفيذ المدرب إلا بعد استيعاب البيانات و SchemaGen و Transform.
- يعتمد المقيِّم على الأمثلة الناتجة عن استيعاب البيانات والنموذج المحفوظ الذي أنتجه المدرب ، لذلك يجب تنفيذه بعد استيعاب البيانات والمدرب.
- يعتمد الناشر المخصص على النموذج المحفوظ الذي أنتجه المدرب ونتائج التحليل التي تم إنشاؤها بواسطة المقيم ، لذلك يجب تنفيذ الناشر بعد المدرب والمقيم.
بناءً على هذا التحليل ، يدير المنسق:
- مثيلات استيعاب البيانات و StatisticsGen و SchemaGen بالتسلسل.
- يمكن تشغيل مكونات ExampleValidator و Transform بالتوازي لأنهما يشتركان في تبعيات المدخلات ولا يعتمدان على مخرجات بعضهما البعض.
- بعد اكتمال مكون التحويل ، يتم تشغيل مثيلات مكون المدرب والمقيم والناشر المخصص بشكل تسلسلي.
تعرف على المزيد حول إنشاء خط أنابيب TFX .
قالب خط أنابيب TFX
تسهل قوالب خط أنابيب TFX البدء في تطوير خطوط الأنابيب من خلال توفير خط أنابيب تم إنشاؤه مسبقًا يمكنك تخصيصه لحالة الاستخدام الخاصة بك.
تعرف على المزيد حول تخصيص قالب خط أنابيب TFX .
تشغيل خط الأنابيب
المدى هو تنفيذ واحد لخط أنابيب.
منسق
Orchestrator هو نظام يمكنك من خلاله تنفيذ عمليات تشغيل خطوط الأنابيب. يدعم TFX المنظمين مثل: Apache Airflow و Apache Beam و Kubeflow Pipelines . يستخدم TFX أيضًا مصطلح DagRunner للإشارة إلى تطبيق يدعم منسق.