ترجمت واجهة Cloud Translation API‏ هذه الصفحة.
Switch to English

فهم خطوط أنابيب TFX

MLOps هي ممارسة لتطبيق ممارسات DevOps للمساعدة في أتمتة تدفقات عمل التعلم الآلي (ML) وإدارتها ومراجعتها. تتضمن تدفقات عمل ML خطوات من أجل:

  • تحضير البيانات وتحليلها وتحويلها.
  • تدريب وتقييم النموذج.
  • نشر النماذج المدربة للإنتاج.
  • تتبع آثار ML وفهم تبعياتها.

قد تكون إدارة هذه الخطوات بطريقة مخصصة أمرًا صعبًا وتستغرق وقتًا طويلاً.

تسهل TFX تنفيذ MLOps من خلال توفير مجموعة أدوات تساعدك على تنظيم عملية ML الخاصة بك على منسقين مختلفين ، مثل: Apache Airflow و Apache Beam و Kubeflow Pipelines. من خلال تنفيذ سير العمل الخاص بك كخط أنابيب TFX ، يمكنك:

  • أتمتة عملية التعلم الآلي الخاصة بك ، والتي تتيح لك إعادة تدريب نموذجك وتقييمه ونشره بانتظام.
  • استخدم موارد الحوسبة الموزعة لمعالجة مجموعات البيانات الكبيرة وأعباء العمل.
  • زيادة سرعة التجريب عن طريق تشغيل خط أنابيب بمجموعات مختلفة من المعلمات الفائقة.

يصف هذا الدليل المفاهيم الأساسية المطلوبة لفهم خطوط أنابيب TFX.

الأداة

ويطلق على مخرجات الخطوات في خط أنابيب TFX التحف. قد تستخدم الخطوات اللاحقة في سير العمل هذه العناصر كمدخلات. بهذه الطريقة ، يتيح لك TFX نقل البيانات بين خطوات سير العمل.

على سبيل المثال ، يُصدر المكون القياسي ExampleGen أمثلة متسلسلة ، والتي تستخدم مكونات مثل المكون القياسي StatisticsGen كمدخلات.

يجب كتابة القطع الأثرية بقوة باستخدام نوع الأداة المسجلة في مخزن بيانات تعريف ML . تعرف على المزيد حول المفاهيم المستخدمة في بيانات تعريف ML .

أنواع القطع الأثرية لها اسم وتحدد مخططًا لخصائصها. يجب أن تكون أسماء أنواع القطع الأثرية فريدة في متجر ML Metadata. يوفر TFX العديد من أنواع العيوب القياسية التي تصف أنواع البيانات المعقدة وأنواع القيم ، مثل: سلسلة وعدد صحيح وعائم. يمكنك إعادة استخدام هذه الأنواع الأثرية أو تحديد أنواع القطع الأثرية المخصصة المشتقة من Artifact .

معامل

المعلمات هي مدخلات لخطوط الأنابيب المعروفة قبل تنفيذ خط الأنابيب الخاص بك. تتيح لك المعلمات تغيير سلوك خط أنابيب أو جزء من خط أنابيب من خلال التكوين بدلاً من التعليمات البرمجية.

على سبيل المثال ، يمكنك استخدام المعلمات لتشغيل خط أنابيب بمجموعات مختلفة من المعلمات التشعبية دون تغيير رمز خط الأنابيب.

يتيح لك استخدام المعلمات زيادة سرعة التجربة من خلال تسهيل تشغيل خط الأنابيب الخاص بك بمجموعات مختلفة من المعلمات.

تعرف على المزيد حول فئة RuntimeParameter .

مكون

المكون هو تنفيذ مهمة تعلم الآلة التي يمكنك استخدامها كخطوة في خط أنابيب TFX الخاص بك. تتكون المكونات من:

  • مواصفات المكون ، التي تحدد عناصر المدخلات والمخرجات للمكون ، والمعاملات المطلوبة للمكون.
  • المنفذ ، الذي ينفذ الكود لتنفيذ خطوة في سير عمل ML الخاص بك ، مثل استيعاب البيانات وتحويلها أو التدريب وتقييم النموذج.
  • واجهة مكون ، تحزم مواصفات المكون والمنفذ لاستخدامها في خط الأنابيب.

يوفر TFX العديد من المكونات القياسية التي يمكنك استخدامها في خطوط الأنابيب الخاصة بك. إذا كانت هذه المكونات لا تلبي احتياجاتك ، يمكنك إنشاء مكونات مخصصة. تعرف على المزيد حول المكونات المخصصة .

خط انابيب

خط أنابيب TFX هو تنفيذ محمول لسير عمل ML يمكن تشغيله على منسقين مختلفين ، مثل: Apache Airflow و Apache Beam و Kubeflow Pipelines. يتكون خط الأنابيب من مثيلات المكون ومعلمات الإدخال.

تنتج مثيلات المكونات مصنوعات كمخرجات وتعتمد عادةً على المصنوعات التي تنتجها مثيلات المكون الرئيسي كمدخلات. يتم تحديد تسلسل التنفيذ لمثيلات المكون من خلال إنشاء رسم بياني لا دوري موجه للاعتمادات الأثرية.

على سبيل المثال ، ضع في اعتبارك خط أنابيب يقوم بما يلي:

  • يستوعب البيانات مباشرة من نظام احتكاري باستخدام مكون مخصص.
  • يحسب إحصائيات بيانات التدريب باستخدام المكون القياسي StatisticsGen.
  • يقوم بإنشاء مخطط بيانات باستخدام مكون SchemaGen القياسي.
  • يتحقق من بيانات التدريب بحثًا عن الانحرافات باستخدام المكون القياسي ExampleValidator.
  • ينفذ هندسة المعالم على مجموعة البيانات باستخدام مكون التحويل القياسي.
  • يقوم بتدريب نموذج باستخدام المكون القياسي للمدرب.
  • يقيم النموذج المدرب باستخدام مكون المقيم.
  • إذا اجتاز النموذج تقييمه ، يقوم خط الأنابيب بإدراج النموذج المدرب في قائمة نظام نشر خاص باستخدام مكون مخصص.

لتحديد تسلسل التنفيذ لمثيلات المكون ، يحلل TFX تبعيات الأداة.

  • لا يحتوي مكوِّن عرض البيانات على أي تبعيات أثرية ، لذا يمكن أن يكون العقدة الأولى في الرسم البياني.
  • تعتمد StatisticsGen على الأمثلة الناتجة عن استيعاب البيانات ، لذلك يجب تنفيذها بعد استيعاب البيانات.
  • يعتمد SchemaGen على الإحصائيات التي أنشأتها StatisticsGen ، لذا يجب تنفيذها بعد StatisticsGen.
  • ExampleValidator يعتمد على إحصاءات التي أنشأتها StatisticsGen والمخطط إنشاؤها من قبل SchemaGen، لذلك يجب أن يتم تنفيذ بعد StatisticsGen وSchemaGen.
  • يعتمد التحويل على الأمثلة الناتجة عن استيعاب البيانات والمخطط الذي تم إنشاؤه بواسطة SchemaGen ، لذلك يجب تنفيذه بعد استيعاب البيانات و SchemaGen.
  • مدرب يعتمد على الأمثلة التي تنتجها ابتلاع البيانات، المخطط إنشاؤها من قبل SchemaGen، ونموذج المحفوظة التي تنتجها تحويل. لا يمكن تنفيذ المدرب إلا بعد استيعاب البيانات و SchemaGen و Transform.
  • يعتمد المقيِّم على الأمثلة الناتجة عن استيعاب البيانات والنموذج المحفوظ الذي أنتجه المدرب ، لذلك يجب تنفيذه بعد استيعاب البيانات والمدرب.
  • يعتمد الناشر المخصص على النموذج المحفوظ الذي أنتجه المدرب ونتائج التحليل التي أنشأها المقيم ، لذلك يجب تنفيذ الناشر بعد المدرب والمقيم.

بناءً على هذا التحليل ، يدير المنسق:

  • مثيلات استيعاب البيانات ، StatisticsGen ، SchemaGen بالتسلسل.
  • يمكن تشغيل مكونات ExampleValidator و Transform بالتوازي نظرًا لأنها تشترك في تبعيات المدخلات ولا تعتمد على إخراج كل منهما.
  • بعد اكتمال مكون التحويل ، يتم تشغيل مثيلات مكون المدرب والمقيم والناشر المخصص بالتتابع.

تعرف على المزيد حول إنشاء خط أنابيب TFX .

قالب خط أنابيب TFX

تسهل قوالب خط أنابيب TFX البدء في تطوير خطوط الأنابيب من خلال توفير خط أنابيب تم إنشاؤه مسبقًا يمكنك تخصيصه لحالة الاستخدام الخاصة بك.

تعرف على المزيد حول تخصيص قالب خط أنابيب TFX .

تشغيل خط الأنابيب

المدى هو تنفيذ واحد لخط أنابيب.

منسق

Orchestrator هو نظام يمكنك من خلاله تنفيذ عمليات تشغيل خطوط الأنابيب. تدعم TFX منظمي الأوركسترا مثل: Apache Airflow و Apache Beam و Kubeflow Pipelines . يستخدم TFX أيضًا مصطلح DagRunner للإشارة إلى تطبيق يدعم منسق .