استخدام فئة Pipeline
يتم تعريف خطوط أنابيب TFX باستخدام فئة Pipeline
. يوضح المثال التالي كيفية استخدام فئة Pipeline
.
pipeline.Pipeline( pipeline_name=pipeline-name, pipeline_root=pipeline-root, components=components, enable_cache=enable-cache, metadata_connection_config=metadata-connection-config, )
استبدل ما يلي:
pipeline-name : اسم خط الأنابيب هذا. يجب أن يكون اسم خط الأنابيب فريدًا.
يستخدم TFX اسم خط الأنابيب عند الاستعلام عن بيانات تعريف ML عن عناصر إدخال المكون. قد تؤدي إعادة استخدام اسم خط الأنابيب إلى سلوكيات غير متوقعة.
pipeline-root : المسار الجذر لمخرجات خط الأنابيب هذا. يجب أن يكون مسار الجذر هو المسار الكامل للدليل الذي قام المنسق بقراءة وكتابة الوصول إليه. في وقت التشغيل ، يستخدم TFX جذر خط الأنابيب لإنشاء مسارات الإخراج لعناصر المكون. يمكن أن يكون هذا الدليل محليًا أو على نظام ملفات موزع مدعوم ، مثل Google Cloud Storage أو HDFS.
components : قائمة مثيلات المكون التي تشكل سير عمل خط الأنابيب هذا.
enable-cache : (اختياري). قيمة منطقية تشير إلى ما إذا كان خط الأنابيب هذا يستخدم التخزين المؤقت لتسريع تنفيذ خط الأنابيب.
metadata-connection-config : (اختياري). تكوين اتصال لبيانات تعريف ML.
تحديد الرسم البياني لتنفيذ المكون
تنتج مثيلات المكونات مصنوعات كمخرجات وتعتمد عادةً على المصنوعات التي تنتجها مثيلات المكون الرئيسي كمدخلات. يتم تحديد تسلسل التنفيذ لمثيلات المكون من خلال إنشاء رسم بياني لا دوري موجه (DAG) للاعتمادات الأثرية.
على سبيل المثال ، يمكن للمكوِّن القياسي ExampleGen
البيانات من ملف CSV وإخراج سجلات الأمثلة المتسلسلة. يقبل المكون القياسي StatisticsGen
هذه الأمثلة على السجلات كمدخلات وينتج إحصائيات مجموعة البيانات. في هذا المثال ، يجب أن يتبع مثيل StatisticsGen
ExampleGen
لأن SchemaGen
يعتمد على إخراج ExampleGen
.
التبعيات القائمة على المهام
يمكنك أيضًا تحديد التبعيات المستندة إلى المهام باستخدام طريقتين add_downstream_node
و add_upstream_node
للمكون . تسمح لك add_upstream_node
بتحديد وجوب تنفيذ المكون الحالي بعد المكون المحدد. تسمح لك add_downstream_node
بتحديد وجوب تنفيذ المكون الحالي قبل المكون المحدد.
قوالب خطوط الأنابيب
أسهل طريقة لإعداد خط أنابيب سريعًا ، ومعرفة كيف تتلاءم كل القطع معًا ، هي استخدام قالب. يتم تناول استخدام القوالب في بناء خط أنابيب TFX محليًا .
التخزين المؤقت
يتيح التخزين المؤقت لخط أنابيب TFX تخطي خط الأنابيب الخاص بك فوق المكونات التي تم تنفيذها باستخدام نفس مجموعة المدخلات في تشغيل خط أنابيب سابق. إذا تم تمكين التخزين المؤقت ، يحاول خط الأنابيب مطابقة توقيع كل مكون ، والمكون ومجموعة المدخلات ، مع أحد عمليات تنفيذ المكون السابقة لخط الأنابيب هذا. إذا كان هناك تطابق ، يستخدم خط الأنابيب مخرجات المكون من التشغيل السابق. إذا لم يكن هناك تطابق ، يتم تنفيذ المكون.
لا تستخدم التخزين المؤقت إذا كان خط الأنابيب الخاص بك يستخدم مكونات غير حتمية. على سبيل المثال ، إذا قمت بإنشاء مكون لإنشاء رقم عشوائي لخط الأنابيب الخاص بك ، فإن تمكين ذاكرة التخزين المؤقت يؤدي إلى تنفيذ هذا المكون مرة واحدة. في هذا المثال ، تستخدم عمليات التشغيل اللاحقة الرقم العشوائي للتشغيل الأول بدلاً من إنشاء رقم عشوائي.