بناء خطوط أنابيب TFX

باستخدام Pipeline الطبقة

يتم تحديد خطوط الأنابيب TFX باستخدام Pipeline الطبقة . يوضح المثال التالي كيفية استخدام Pipeline الصف.

pipeline.Pipeline(
    pipeline_name=pipeline-name,
    pipeline_root=pipeline-root,
    components=components,
    enable_cache=enable-cache,
    metadata_connection_config=metadata-connection-config,
)

استبدل ما يلي:

  • pipeline-name : اسم هذا الخط. يجب أن يكون اسم خط الأنابيب فريدًا.

    يستخدم TFX اسم خط الأنابيب عند الاستعلام عن بيانات تعريف ML عن عناصر إدخال المكون. قد تؤدي إعادة استخدام اسم خط أنابيب إلى سلوكيات غير متوقعة.

  • pipeline-root : مسار الجذر من مخرجات هذا خط الانابيب. يجب أن يكون مسار الجذر هو المسار الكامل للدليل الذي قام المنسق بقراءة وكتابة الوصول إليه. في وقت التشغيل ، يستخدم TFX جذر خط الأنابيب لإنشاء مسارات الإخراج لعناصر المكون. يمكن أن يكون هذا الدليل محليًا أو على نظام ملفات موزع مدعوم ، مثل Google Cloud Storage أو HDFS.

  • components : قائمة الحالات التي تشكل المكون سير العمل هذا خط الانابيب.

  • enable-cache : (اختياري) قيمة منطقية تشير إلى ما إذا كان هذا الاستخدامات خط أنابيب التخزين المؤقت لتسريع تنفيذ خط أنابيب.

  • metadata-connection-config : (اختياري). وتكوين اتصال لML الفوقية.

تحديد الرسم البياني لتنفيذ المكون

تنتج مثيلات المكونات مصنوعات كمخرجات وتعتمد عادةً على المصنوعات التي تنتجها مثيلات المكون الرئيسي كمدخلات. يتم تحديد تسلسل التنفيذ لمثيلات المكون من خلال إنشاء رسم بياني لا دوري موجه (DAG) للاعتمادات الأثرية.

على سبيل المثال، ExampleGen يمكن مكون قياسي استيعاب البيانات من ملف CSV والإخراج تسلسل سجلات سبيل المثال. و StatisticsGen مكون قياسي يقبل هذه السجلات سبيل المثال كمدخل وينتج بيانات الإحصاءات. في هذا المثال، مثيل StatisticsGen يجب أن تتبع ExampleGen ل SchemaGen يعتمد على إخراج ExampleGen .

التبعيات القائمة على المهام

يمكنك أيضا تحديد تبعيات على أساس المهمة باستخدام مكون الخاص بك add_upstream_node و add_downstream_node الأساليب. add_upstream_node يتيح لك تحديد أن العنصر الحالي يجب أن يتم تنفيذ بعد العنصر المحدد. add_downstream_node يتيح لك تحديد أن العنصر الحالي يجب أن يتم تنفيذها قبل العنصر المحدد.

قوالب خطوط الأنابيب

إن أسهل طريقة لإعداد خط أنابيب سريعًا ، ومعرفة كيف تتلاءم كل القطع معًا ، هي استخدام قالب. باستخدام القوالب وتغطي في بناء خط أنابيب TFX محليا .

التخزين المؤقت

يتيح التخزين المؤقت لخط أنابيب TFX لخط الأنابيب الخاص بك تخطي المكونات التي تم تنفيذها باستخدام نفس مجموعة المدخلات في تشغيل خط أنابيب سابق. إذا تم تمكين التخزين المؤقت ، يحاول خط الأنابيب مطابقة توقيع كل مكون ، والمكون ومجموعة المدخلات ، بأحد عمليات تنفيذ المكون السابقة لخط الأنابيب هذا. إذا كان هناك تطابق ، يستخدم خط الأنابيب مخرجات المكون من التشغيل السابق. إذا لم يكن هناك تطابق ، يتم تنفيذ المكون.

لا تستخدم التخزين المؤقت إذا كان خط الأنابيب الخاص بك يستخدم مكونات غير حتمية. على سبيل المثال ، إذا قمت بإنشاء مكون لإنشاء رقم عشوائي لخط الأنابيب الخاص بك ، فإن تمكين ذاكرة التخزين المؤقت يؤدي إلى تنفيذ هذا المكون مرة واحدة. في هذا المثال ، تستخدم عمليات التشغيل اللاحقة الرقم العشوائي للتشغيل الأول بدلاً من إنشاء رقم عشوائي.