بناء خطوط أنابيب TFX

باستخدام فئة Pipeline

يتم تعريف خطوط أنابيب TFX باستخدام فئة Pipeline . يوضح المثال التالي كيفية استخدام فئة Pipeline .

pipeline.Pipeline(
    pipeline_name=pipeline-name,
    pipeline_root=pipeline-root,
    components=components,
    enable_cache=enable-cache,
    metadata_connection_config=metadata-connection-config,
)

استبدل ما يلي:

  • pipeline-name : اسم خط الأنابيب هذا. يجب أن يكون اسم خط الأنابيب فريدًا.

    يستخدم TFX اسم خط الأنابيب عند الاستعلام عن بيانات تعريف ML لعناصر إدخال المكونات. قد تؤدي إعادة استخدام اسم خط الأنابيب إلى سلوكيات غير متوقعة.

  • pipeline-root : المسار الجذر لمخرجات خط الأنابيب هذا. يجب أن يكون المسار الجذر هو المسار الكامل للدليل الذي يتمتع المنسق الخاص بك بحق الوصول للقراءة والكتابة إليه. في وقت التشغيل، يستخدم TFX جذر خط الأنابيب لإنشاء مسارات الإخراج لعناصر المكونات. يمكن أن يكون هذا الدليل محليًا، أو على نظام ملفات موزع مدعوم، مثل Google Cloud Storage أو HDFS.

  • components : قائمة مثيلات المكونات التي تشكل سير عمل خط الأنابيب هذا.

  • enable-cache : (اختياري.) قيمة منطقية تشير إلى ما إذا كان خط الأنابيب هذا يستخدم التخزين المؤقت لتسريع تنفيذ خط الأنابيب.

  • metadata-connection-config : (اختياري.) تكوين اتصال لبيانات تعريف ML.

تحديد الرسم البياني لتنفيذ المكون

تُنتج مثيلات المكونات عناصر كمخرجات وتعتمد عادةً على العناصر التي تنتجها مثيلات المكونات الأولية كمدخلات. يتم تحديد تسلسل التنفيذ لمثيلات المكونات عن طريق إنشاء رسم بياني غير دوري موجه (DAG) لتبعيات العناصر.

على سبيل المثال، يمكن للمكون القياسي ExampleGen استيعاب البيانات من ملف CSV وإخراج سجلات الأمثلة المتسلسلة. يقبل المكون القياسي StatisticsGen هذه السجلات النموذجية كمدخلات وينتج إحصائيات مجموعة البيانات. في هذا المثال، يجب أن يتبع مثيل StatisticsGen ExampleGen لأن SchemaGen يعتمد على مخرجات ExampleGen .

التبعيات القائمة على المهام

يمكنك أيضًا تحديد التبعيات المستندة إلى المهام باستخدام أساليب add_upstream_node و add_downstream_node الخاصة بالمكون الخاص بك. يتيح لك add_upstream_node تحديد وجوب تنفيذ المكون الحالي بعد المكون المحدد. يتيح لك add_downstream_node تحديد وجوب تنفيذ المكون الحالي قبل المكون المحدد.

قوالب خطوط الأنابيب

أسهل طريقة لإعداد خط الأنابيب بسرعة، ورؤية مدى توافق جميع القطع معًا، هي استخدام قالب. يتم تناول استخدام القوالب في إنشاء خط أنابيب TFX محليًا .

التخزين المؤقت

يتيح التخزين المؤقت لخط الأنابيب TFX لخط الأنابيب الخاص بك تخطي المكونات التي تم تنفيذها بنفس مجموعة المدخلات في تشغيل خط أنابيب سابق. إذا تم تمكين التخزين المؤقت، يحاول المسار مطابقة توقيع كل مكون، المكون ومجموعة المدخلات، مع إحدى عمليات تنفيذ المكونات السابقة لهذا المسار. إذا كان هناك تطابق، يستخدم خط الأنابيب مخرجات المكون من التشغيل السابق. إذا لم يكن هناك تطابق، يتم تنفيذ المكون.

لا تستخدم التخزين المؤقت إذا كان خط الأنابيب الخاص بك يستخدم مكونات غير حتمية. على سبيل المثال، إذا قمت بإنشاء مكون لإنشاء رقم عشوائي لخط الأنابيب الخاص بك، فإن تمكين ذاكرة التخزين المؤقت يؤدي إلى تنفيذ هذا المكون مرة واحدة. في هذا المثال، تستخدم عمليات التشغيل اللاحقة الرقم العشوائي الخاص بعملية التشغيل الأولى بدلاً من إنشاء رقم عشوائي.