এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

স্থানীয়ভাবে একটি TFX পাইপলাইন তৈরি করা

TFX আপনার মেশিন লার্নিং (ML) ওয়ার্কফ্লোকে পাইপলাইন হিসাবে সাজানো সহজ করে তোলে, যাতে:

আপনার ML প্রক্রিয়া স্বয়ংক্রিয় করুন, যা আপনাকে নিয়মিতভাবে পুনরায় প্রশিক্ষণ, মূল্যায়ন এবং আপনার মডেল স্থাপন করতে দেয়।
এমএল পাইপলাইন তৈরি করুন যাতে মডেলের পারফরম্যান্সের গভীর বিশ্লেষণ এবং কর্মক্ষমতা এবং নির্ভরযোগ্যতা নিশ্চিত করতে নতুন প্রশিক্ষিত মডেলের বৈধতা অন্তর্ভুক্ত থাকে।
অসঙ্গতিগুলির জন্য প্রশিক্ষণের ডেটা নিরীক্ষণ করুন এবং প্রশিক্ষণ প্রদানকারী তির্যক দূর করুন
হাইপারপ্যারামিটারের বিভিন্ন সেট সহ একটি পাইপলাইন চালিয়ে পরীক্ষা-নিরীক্ষার বেগ বাড়ান।

একটি সাধারণ পাইপলাইন উন্নয়ন প্রক্রিয়া একটি স্থানীয় মেশিনে শুরু হয়, ডেটা বিশ্লেষণ এবং উপাদান সেটআপ সহ, উৎপাদনে মোতায়েন করার আগে। এই নির্দেশিকা স্থানীয়ভাবে একটি পাইপলাইন নির্মাণের দুটি উপায় বর্ণনা করে।

আপনার ML কর্মপ্রবাহের চাহিদা পূরণ করতে একটি TFX পাইপলাইন টেমপ্লেট কাস্টমাইজ করুন। TFX পাইপলাইন টেমপ্লেটগুলি হল প্রি-বিল্ট ওয়ার্কফ্লো যা TFX স্ট্যান্ডার্ড উপাদানগুলি ব্যবহার করে সেরা অনুশীলনগুলি প্রদর্শন করে।
TFX ব্যবহার করে একটি পাইপলাইন তৈরি করুন। এই ব্যবহারের ক্ষেত্রে, আপনি একটি টেমপ্লেট থেকে শুরু না করে একটি পাইপলাইন সংজ্ঞায়িত করুন৷

আপনি যখন আপনার পাইপলাইনটি বিকাশ করছেন, আপনি এটি LocalDagRunner দিয়ে চালাতে পারেন। তারপরে, একবার পাইপলাইনের উপাদানগুলি ভালভাবে সংজ্ঞায়িত এবং পরীক্ষা করা হয়ে গেলে, আপনি একটি প্রোডাকশন-গ্রেড অর্কেস্ট্রেটর যেমন কুবেফ্লো বা এয়ারফ্লো ব্যবহার করবেন।

আপনি শুরু করার আগে

TFX হল একটি পাইথন প্যাকেজ, তাই আপনাকে একটি পাইথন ডেভেলপমেন্ট এনভায়রনমেন্ট সেট আপ করতে হবে, যেমন একটি ভার্চুয়াল এনভায়রনমেন্ট বা একটি ডকার কন্টেইনার। তারপর:

pip install tfx

আপনি যদি TFX পাইপলাইনে নতুন হন, তাহলে চালিয়ে যাওয়ার আগে TFX পাইপলাইনের মূল ধারণা সম্পর্কে আরও জানুন ।

একটি টেমপ্লেট ব্যবহার করে একটি পাইপলাইন তৈরি করুন

TFX পাইপলাইন টেমপ্লেটগুলি পাইপলাইন ডেভেলপমেন্টের সাথে শুরু করা সহজ করে তোলে একটি পূর্বনির্মাণ পাইপলাইন সংজ্ঞা প্রদান করে যা আপনি আপনার ব্যবহারের ক্ষেত্রে কাস্টমাইজ করতে পারেন।

নিম্নলিখিত বিভাগগুলি বর্ণনা করে যে কীভাবে একটি টেমপ্লেটের একটি অনুলিপি তৈরি করা যায় এবং আপনার প্রয়োজন মেটাতে এটি কাস্টমাইজ করা যায়।

পাইপলাইন টেমপ্লেটের একটি অনুলিপি তৈরি করুন

উপলব্ধ TFX পাইপলাইন টেমপ্লেটের তালিকা দেখুন:
```
tfx template list
```
তালিকা থেকে একটি টেমপ্লেট নির্বাচন করুন
```
tfx template copy --model=template --pipeline_name=pipeline-name \
--destination_path=destination-path
```
নিম্নলিখিতগুলি প্রতিস্থাপন করুন:
- template : আপনি যে টেমপ্লেটটি কপি করতে চান তার নাম।
- pipeline-name : তৈরি করা পাইপলাইনের নাম।
- destination-path : টেমপ্লেটটি কপি করার পথ।
tfx template copy কমান্ড সম্পর্কে আরও জানুন।
আপনার নির্দিষ্ট করা পথে পাইপলাইন টেমপ্লেটের একটি অনুলিপি তৈরি করা হয়েছে।

পাইপলাইন টেমপ্লেট অন্বেষণ করুন

এই বিভাগটি একটি টেমপ্লেট দ্বারা তৈরি ভারাগুলির একটি ওভারভিউ প্রদান করে।

আপনার পাইপলাইনের রুট ডিরেক্টরিতে কপি করা ডিরেক্টরি এবং ফাইলগুলি অন্বেষণ করুন৷
- সঙ্গে একটি পাইপলাইন ডিরেক্টরি
  - pipeline.py - পাইপলাইন সংজ্ঞায়িত করে এবং কোন উপাদান ব্যবহার করা হচ্ছে তা তালিকাভুক্ত করে
  - configs.py - কনফিগারেশনের বিশদ ধরে রাখুন যেমন ডেটা কোথা থেকে আসছে বা কোন অর্কেস্ট্রেটর ব্যবহার করা হচ্ছে
- একটি ডেটা ডিরেক্টরি
  - এটিতে সাধারণত একটি data.csv ফাইল থাকে, যা ExampleGen এর জন্য ডিফল্ট উৎস। আপনি configs.py এ ডেটা উৎস পরিবর্তন করতে পারেন।
- প্রিপ্রসেসিং কোড এবং মডেল বাস্তবায়ন সহ একটি মডেল ডিরেক্টরি
- টেমপ্লেটটি স্থানীয় পরিবেশ এবং কুবেফ্লো-এর জন্য DAG রানারদের অনুলিপি করে।
- কিছু টেমপ্লেটে পাইথন নোটবুকও রয়েছে যাতে আপনি মেশিন লার্নিং মেটাডেটা দিয়ে আপনার ডেটা এবং শিল্পকর্মগুলি অন্বেষণ করতে পারেন।
আপনার পাইপলাইন ডিরেক্টরিতে নিম্নলিখিত কমান্ডগুলি চালান:
```
tfx pipeline create --pipeline_path local_runner.py
```
```
tfx run create --pipeline_name pipeline_name
```
কমান্ডটি LocalDagRunner ব্যবহার করে একটি পাইপলাইন তৈরি করে, যা আপনার পাইপলাইনে নিম্নলিখিত ডিরেক্টরি যোগ করে:
- একটি tfx_metadata ডিরেক্টরি যেখানে স্থানীয়ভাবে ব্যবহৃত ML মেটাডেটা স্টোর রয়েছে।
- একটি tfx_pipeline_output ডিরেক্টরি যা পাইপলাইনের ফাইল আউটপুট ধারণ করে।
দ্রষ্টব্য: LocalDagRunner হল একাধিক অর্কেস্ট্রেটর যা TFX-এ সমর্থিত। এটি দ্রুততর পুনরাবৃত্তির জন্য স্থানীয়ভাবে পাইপলাইন চালানোর জন্য বিশেষভাবে উপযুক্ত, সম্ভবত ছোট ডেটাসেটের সাথে। LocalDagRunner উত্পাদন ব্যবহারের জন্য উপযুক্ত নাও হতে পারে কারণ এটি একটি একক মেশিনে চলে, যা সিস্টেমটি অনুপলব্ধ হলে কাজ হারিয়ে যাওয়ার ঝুঁকি বেশি। TFX এছাড়াও অর্কেস্ট্রেটরদের সমর্থন করে যেমন Apache Beam, Apache Airflow, এবং Kubeflow Pipeline। আপনি যদি অন্য অর্কেস্ট্রেটরের সাথে TFX ব্যবহার করেন, তাহলে সেই অর্কেস্ট্রেটরের জন্য উপযুক্ত DAG রানার ব্যবহার করুন।
দ্রষ্টব্য: এই লেখার মতো, LocalDagRunner penguin টেমপ্লেটে ব্যবহার করা হয়, যখন taxi টেমপ্লেট অ্যাপাচি বীম ব্যবহার করে। taxi টেমপ্লেটের জন্য কনফিগার ফাইলগুলি বীম ব্যবহার করার জন্য সেট আপ করা হয়েছে এবং CLI কমান্ড একই।
আপনার পাইপলাইনের pipeline/configs.py ফাইলটি খুলুন এবং বিষয়বস্তু পর্যালোচনা করুন। এই স্ক্রিপ্টটি পাইপলাইন এবং উপাদান ফাংশন দ্বারা ব্যবহৃত কনফিগারেশন বিকল্পগুলিকে সংজ্ঞায়িত করে। এখানে আপনি ডেটাসোর্সের অবস্থান বা একটি দৌড়ে প্রশিক্ষণের ধাপের সংখ্যার মতো জিনিসগুলি নির্দিষ্ট করবেন।
আপনার পাইপলাইনের pipeline/pipeline.py ফাইলটি খুলুন এবং বিষয়বস্তু পর্যালোচনা করুন৷ এই স্ক্রিপ্টটি TFX পাইপলাইন তৈরি করে। প্রাথমিকভাবে, পাইপলাইনে শুধুমাত্র একটি ExampleGen উপাদান থাকে।
- পাইপলাইনে আরও ধাপ যোগ করতে pipeline.py এ TODO মন্তব্যে নির্দেশাবলী অনুসরণ করুন।
local_runner.py ফাইল খুলুন এবং বিষয়বস্তু পর্যালোচনা করুন। এই স্ক্রিপ্টটি একটি পাইপলাইন রান তৈরি করে এবং রানের প্যারামিটারগুলি নির্দিষ্ট করে, যেমন data_path এবং preprocessing_fn ।
আপনি টেমপ্লেট দ্বারা তৈরি স্ক্যাফোল্ডিং পর্যালোচনা করেছেন এবং LocalDagRunner ব্যবহার করে একটি পাইপলাইন তৈরি করেছেন। এরপরে, আপনার প্রয়োজনীয়তার সাথে মানানসই টেমপ্লেটটি কাস্টমাইজ করুন।

আপনার পাইপলাইন কাস্টমাইজ করুন

এই বিভাগটি আপনার টেমপ্লেট কাস্টমাইজ করা শুরু করার একটি ওভারভিউ প্রদান করে।

আপনার পাইপলাইন ডিজাইন করুন। একটি টেমপ্লেট যে ভারা প্রদান করে তা আপনাকে TFX স্ট্যান্ডার্ড উপাদানগুলি ব্যবহার করে ট্যাবুলার ডেটার জন্য একটি পাইপলাইন বাস্তবায়নে সহায়তা করে। আপনি যদি একটি বিদ্যমান ML ওয়ার্কফ্লোকে একটি পাইপলাইনে নিয়ে যাচ্ছেন, তাহলে TFX স্ট্যান্ডার্ড উপাদানগুলির সম্পূর্ণ ব্যবহার করার জন্য আপনাকে আপনার কোড সংশোধন করতে হতে পারে। আপনাকে এমন কাস্টম উপাদানগুলিও তৈরি করতে হতে পারে যা বৈশিষ্ট্যগুলি প্রয়োগ করে যা আপনার কর্মপ্রবাহের জন্য অনন্য বা যেগুলি এখনও TFX স্ট্যান্ডার্ড উপাদান দ্বারা সমর্থিত নয়৷
একবার আপনি আপনার পাইপলাইন ডিজাইন করার পরে, নিম্নলিখিত প্রক্রিয়াটি ব্যবহার করে পুনরাবৃত্তভাবে পাইপলাইনটি কাস্টমাইজ করুন। আপনার পাইপলাইনে ডেটা ইনজেস্ট করে এমন উপাদান থেকে শুরু করুন, যা সাধারণত ExampleGen উপাদান।
1. আপনার ব্যবহারের ক্ষেত্রে ফিট করার জন্য পাইপলাইন বা একটি উপাদান কাস্টমাইজ করুন। এই কাস্টমাইজেশনগুলির মধ্যে পরিবর্তনগুলি অন্তর্ভুক্ত থাকতে পারে যেমন:
  - পাইপলাইনের পরামিতি পরিবর্তন করা হচ্ছে।
  - পাইপলাইনে উপাদান যোগ করা বা অপসারণ করা।
  - তথ্য ইনপুট উৎস প্রতিস্থাপন. এই ডেটা সোর্সটি হয় একটি ফাইল হতে পারে বা BigQuery-এর মতো পরিষেবাগুলিতে প্রশ্ন করতে পারে।
  - পাইপলাইনে একটি উপাদানের কনফিগারেশন পরিবর্তন করা হচ্ছে।
  - একটি উপাদান এর কাস্টমাইজেশন ফাংশন পরিবর্তন.
2. স্থানীয়ভাবে স্থানীয়ভাবে কম্পোনেন্ট চালান local_runner.py স্ক্রিপ্ট, অথবা অন্য উপযুক্ত DAG রানার যদি আপনি একটি ভিন্ন অর্কেস্ট্রেটর ব্যবহার করেন। স্ক্রিপ্ট ব্যর্থ হলে, ব্যর্থতা ডিবাগ করুন এবং স্ক্রিপ্ট চালানোর জন্য পুনরায় চেষ্টা করুন।
3. একবার এই কাস্টমাইজেশন কাজ করে, পরবর্তী কাস্টমাইজেশনে যান।
পুনরাবৃত্তিমূলকভাবে কাজ করে, আপনি আপনার প্রয়োজন মেটাতে টেমপ্লেট ওয়ার্কফ্লোতে প্রতিটি ধাপ কাস্টমাইজ করতে পারেন।

একটি কাস্টম পাইপলাইন তৈরি করুন

একটি টেমপ্লেট ব্যবহার না করে একটি কাস্টম পাইপলাইন নির্মাণ সম্পর্কে আরও জানতে নিম্নলিখিত নির্দেশাবলী ব্যবহার করুন৷

আপনার পাইপলাইন ডিজাইন করুন। TFX স্ট্যান্ডার্ড উপাদানগুলি আপনাকে একটি সম্পূর্ণ এমএল ওয়ার্কফ্লো বাস্তবায়নে সহায়তা করার জন্য প্রমাণিত কার্যকারিতা প্রদান করে। আপনি যদি একটি বিদ্যমান এমএল ওয়ার্কফ্লোকে একটি পাইপলাইনে স্থানান্তরিত করেন, তাহলে TFX স্ট্যান্ডার্ড উপাদানগুলির সম্পূর্ণ ব্যবহার করার জন্য আপনাকে আপনার কোড সংশোধন করতে হতে পারে। আপনাকে কাস্টম উপাদানগুলি তৈরি করতে হতে পারে যা ডেটা বৃদ্ধির মতো বৈশিষ্ট্যগুলি প্রয়োগ করে।
- স্ট্যান্ডার্ড TFX উপাদান সম্পর্কে আরও জানুন।
- কাস্টম উপাদান সম্পর্কে আরও জানুন।
নিম্নলিখিত উদাহরণ ব্যবহার করে আপনার পাইপলাইন সংজ্ঞায়িত করতে একটি স্ক্রিপ্ট ফাইল তৈরি করুন। এই নির্দেশিকাটি এই ফাইলটিকে my_pipeline.py হিসাবে উল্লেখ করে।
```
import os
from typing import Optional, Text, List
from absl import logging
from ml_metadata.proto import metadata_store_pb2
import tfx.v1 as tfx

PIPELINE_NAME = 'my_pipeline'
PIPELINE_ROOT = os.path.join('.', 'my_pipeline_output')
METADATA_PATH = os.path.join('.', 'tfx_metadata', PIPELINE_NAME, 'metadata.db')
ENABLE_CACHE = True

def create_pipeline(
  pipeline_name: Text,
  pipeline_root:Text,
  enable_cache: bool,
  metadata_connection_config: Optional[
    metadata_store_pb2.ConnectionConfig] = None,
  beam_pipeline_args: Optional[List[Text]] = None
):
  components = []

  return tfx.dsl.Pipeline(
        pipeline_name=pipeline_name,
        pipeline_root=pipeline_root,
        components=components,
        enable_cache=enable_cache,
        metadata_connection_config=metadata_connection_config,
        beam_pipeline_args=beam_pipeline_args, 
    )

def run_pipeline():
  my_pipeline = create_pipeline(
      pipeline_name=PIPELINE_NAME,
      pipeline_root=PIPELINE_ROOT,
      enable_cache=ENABLE_CACHE,
      metadata_connection_config=tfx.orchestration.metadata.sqlite_metadata_connection_config(METADATA_PATH)
      )

  tfx.orchestration.LocalDagRunner().run(my_pipeline)

if __name__ == '__main__':
  logging.set_verbosity(logging.INFO)
  run_pipeline()
```
আগামী ধাপে, আপনি create_pipeline এ আপনার পাইপলাইন সংজ্ঞায়িত করুন এবং স্থানীয় রানার ব্যবহার করে স্থানীয়ভাবে আপনার পাইপলাইন চালান।
নিম্নলিখিত প্রক্রিয়াটি ব্যবহার করে পুনরাবৃত্তিমূলকভাবে আপনার পাইপলাইন তৈরি করুন।
1. আপনার ব্যবহারের ক্ষেত্রে ফিট করার জন্য পাইপলাইন বা একটি উপাদান কাস্টমাইজ করুন। এই কাস্টমাইজেশনগুলির মধ্যে পরিবর্তনগুলি অন্তর্ভুক্ত থাকতে পারে যেমন:
  - পাইপলাইনের পরামিতি পরিবর্তন করা হচ্ছে।
  - পাইপলাইনে উপাদান যোগ করা বা অপসারণ করা।
  - একটি ডেটা ইনপুট ফাইল প্রতিস্থাপন.
  - পাইপলাইনে একটি উপাদানের কনফিগারেশন পরিবর্তন করা হচ্ছে।
  - একটি উপাদান এর কাস্টমাইজেশন ফাংশন পরিবর্তন.
2. স্থানীয় রানার ব্যবহার করে বা সরাসরি স্ক্রিপ্ট চালিয়ে স্থানীয়ভাবে উপাদানটি চালান। স্ক্রিপ্ট ব্যর্থ হলে, ব্যর্থতা ডিবাগ করুন এবং স্ক্রিপ্ট চালানোর জন্য পুনরায় চেষ্টা করুন।
3. একবার এই কাস্টমাইজেশন কাজ করে, পরবর্তী কাস্টমাইজেশনে যান।
আপনার পাইপলাইনের ওয়ার্কফ্লোতে প্রথম নোড থেকে শুরু করুন, সাধারণত প্রথম নোড আপনার পাইপলাইনে ডেটা প্রবেশ করে।

আপনার পাইপলাইনে আপনার ওয়ার্কফ্লোতে প্রথম নোড যোগ করুন। এই উদাহরণে, পাইপলাইনটি ./data এ একটি ডিরেক্টরি থেকে একটি CSV লোড করতে ExampleGen স্ট্যান্ডার্ড উপাদান ব্যবহার করে।

from tfx.components import CsvExampleGen

DATA_PATH = os.path.join('.', 'data')

def create_pipeline(
  pipeline_name: Text,
  pipeline_root:Text,
  data_path: Text,
  enable_cache: bool,
  metadata_connection_config: Optional[
    metadata_store_pb2.ConnectionConfig] = None,
  beam_pipeline_args: Optional[List[Text]] = None
):
  components = []

  example_gen = tfx.components.CsvExampleGen(input_base=data_path)
  components.append(example_gen)

  return tfx.dsl.Pipeline(
        pipeline_name=pipeline_name,
        pipeline_root=pipeline_root,
        components=components,
        enable_cache=enable_cache,
        metadata_connection_config=metadata_connection_config,
        beam_pipeline_args=beam_pipeline_args, <!-- needed? -->
    )

def run_pipeline():
  my_pipeline = create_pipeline(
    pipeline_name=PIPELINE_NAME,
    pipeline_root=PIPELINE_ROOT,
    data_path=DATA_PATH,
    enable_cache=ENABLE_CACHE,
    metadata_connection_config=tfx.orchestration.metadata.sqlite_metadata_connection_config(METADATA_PATH)
    )

  tfx.orchestration.LocalDagRunner().run(my_pipeline)

CsvExampleGen নির্দিষ্ট ডেটা পাথে CSV-এর ডেটা ব্যবহার করে ধারাবাহিক উদাহরণ রেকর্ড তৈরি করে। ডেটা রুটের সাথে CsvExampleGen কম্পোনেন্টের input_base প্যারামিটার সেট করে।

my_pipeline.py হিসাবে একই ডিরেক্টরিতে একটি data ডিরেক্টরি তৈরি করুন। data ডিরেক্টরিতে একটি ছোট CSV ফাইল যোগ করুন।

আপনার my_pipeline.py স্ক্রিপ্ট চালানোর জন্য নিম্নলিখিত কমান্ডটি ব্যবহার করুন।

python my_pipeline.py

ফলাফল নিম্নলিখিত মত কিছু হওয়া উচিত:

INFO:absl:Component CsvExampleGen depends on [].
INFO:absl:Component CsvExampleGen is scheduled.
INFO:absl:Component CsvExampleGen is running.
INFO:absl:Running driver for CsvExampleGen
INFO:absl:MetadataStore with DB connection initialized
INFO:absl:Running executor for CsvExampleGen
INFO:absl:Generating examples.
INFO:absl:Using 1 process(es) for Local pipeline execution.
INFO:absl:Processing input csv data ./data/* to TFExample.
WARNING:root:Couldn't find python-snappy so the implementation of _TFRecordUtil._masked_crc32c is not as fast as it could be.
INFO:absl:Examples generated.
INFO:absl:Running publisher for CsvExampleGen
INFO:absl:MetadataStore with DB connection initialized
INFO:absl:Component CsvExampleGen is finished.

আপনার পাইপলাইনে পুনরাবৃত্তভাবে উপাদান যোগ করা চালিয়ে যান।