SIG TFX-Addons কমিউনিটিতে যোগ দিন এবং TFX কে আরও ভাল করতে সাহায্য করুন! SIG TFX-Addons- এ যোগ দিন

ক্লাউড এআই প্ল্যাটফর্ম পাইপলাইনে টিএফএক্স

ভূমিকা

এই টিউটোরিয়ালটি টেনসরফ্লো এক্সটেন্ডেড (টিএফএক্স) এবং ক্লাউড এআই প্ল্যাটফর্ম পাইপলাইনগুলি উপস্থাপনের জন্য ডিজাইন করা হয়েছে এবং গুগল ক্লাউডে আপনার নিজস্ব মেশিন লার্নিং পাইপলাইন তৈরি করতে শিখতে আপনাকে সহায়তা করে। এটি টিএফএক্স, এআই প্ল্যাটফর্ম পাইপলাইনস এবং কুবেফ্লো এর সাথে একত্রীকরণের পাশাপাশি জুপিটার নোটবুকগুলিতে টিএফএক্সের সাথে ইন্টারঅ্যাকশন দেখায়।

এই টিউটোরিয়ালটির শেষে, আপনি গুগল ক্লাউডে হোস্ট করা একটি এমএল পাইপলাইন তৈরি এবং পরিচালনা করবেন। আপনি প্রতিটি রানের ফলাফলগুলি ভিজ্যুয়ালাইজ করতে সক্ষম হবেন এবং তৈরি শিল্পকর্মগুলির বংশটি দেখতে পারবেন।

আপনি একটি সাধারণ এমএল বিকাশ প্রক্রিয়া অনুসরণ করবেন, ডেটাসেট পরীক্ষা করে শুরু করে এবং একটি সম্পূর্ণ কাজের পাইপলাইন দিয়ে শেষ করে। আপনি আপনার পাইপলাইনটি ডিবাগ এবং আপডেট করার উপায়গুলি এবং অন্বেষণের পরিমাপের উপায় অন্বেষণ করবেন।

শিকাগো ট্যাক্সি ডেটাসেট

ট্যাক্সিশিকাগো ট্যাক্সি

আপনি ব্যবহার করছেন ট্যাক্সি ডেটা সেটটি Trips শিকাগো শহরের দ্বারা মুক্তি।

আপনি করতে পারেন আরও পড়তে মধ্যে ডেটা সেটটি সম্পর্কে Google BigQuery- তে । পূর্ণ ডেটা সেটটি এক্সপ্লোর BigQuery- তে UI 'তে

মডেল লক্ষ্য - বাইনারি শ্রেণিবদ্ধকরণ

গ্রাহক আরও বা কম 20% টিপ দেবে?

1. একটি গুগল ক্লাউড প্রকল্প সেট আপ করুন

1.a গুগল ক্লাউডে আপনার পরিবেশ সেট আপ করুন

শুরু করতে আপনার একটি Google মেঘ অ্যাকাউন্ট প্রয়োজন need যদি ইতিমধ্যে আপনার থাকে, তাহলে এগিয়ে এড়িয়ে যেতে নতুন প্রকল্প তৈরি করুন

  1. যান Google ক্লাউড কনসোলে

  2. গুগল ক্লাউডের শর্তাবলী এবং সাথে সম্মত হন ree

  3. আপনি একটি বিনামূল্যে ট্রায়াল অ্যাকাউন্ট দিয়ে শুরু করতে চান তাহলে, এ ক্লিক করুন ব্যবহার করে দেখুন (অথবা বিনামূল্যে জন্য শুরু করুন )।

    1. তোমার দেশ নির্বাচন কর.

    2. পরিষেবার শর্তাদিতে সম্মত হন।

    3. বিলিংয়ের বিশদ লিখুন।

      এই মুহুর্তে আপনাকে চার্জ করা হবে না। আপনি কোন অন্যান্য Google মেঘ প্রকল্পগুলির থাকে, তাহলে আপনি মাত্রাধিক ছাড়া এই টিউটোরিয়াল সম্পন্ন করতে পারবেন Google মেঘ ফ্রি টিয়ার সীমা, যা একই সময়ে চলমান 8 কোর একটি সর্বোচ্চ অন্তর্ভুক্ত করা হয়েছে।

1.b একটি নতুন প্রকল্প তৈরি করুন।

  1. থেকে প্রধান Google মেঘ ড্যাশবোর্ড , গুগল ক্লাউড প্ল্যাটফর্ম হেডার পরবর্তী প্রকল্প ড্রপডাউন ক্লিক করুন, এবং নতুন প্রোজেক্ট নির্বাচন করুন।
  2. আপনার প্রকল্পের একটি নাম দিন এবং অন্যান্য প্রকল্পের বিশদ লিখুন
  3. আপনি একবার একটি প্রকল্প তৈরি করার পরে, এটি প্রকল্পের ড্রপ-ডাউন থেকে নির্বাচন করুন।

2. একটি নতুন কুবারনেটস ক্লাস্টারে একটি এআই প্ল্যাটফর্ম পাইপলাইন স্থাপন এবং স্থাপন করুন

  1. যান এআই প্ল্যাটফর্ম পাইপলাইন ক্লাস্টার পাতা।

    প্রধান নেভিগেশন মেনু এর অধীনে: AI> এআই প্ল্যাটফর্ম> পাইপলাইন

  2. একটি নতুন ক্লাস্টার তৈরি করতে + নতুন উদাহরণ ক্লিক করুন।

  3. Kubeflow পাইপলাইন ওভারভিউ পৃষ্ঠায়, কনফিগার ক্লিক করুন।

    এগিয়ে যাওয়ার আগে আপনাকে কয়েক মিনিট অপেক্ষা করতে হতে পারে, যখন কুবেরনেটস ইঞ্জিন এপিআই আপনার জন্য সক্ষম করা হবে।

  4. স্থাপন Kubeflow পাইপলাইন পৃষ্ঠায়:

    1. একটি নির্বাচিত জোন (বা "অঞ্চল") আপনার ক্লাস্টার জন্য।

    2. গুরুত্বপূর্ণ চেক বক্স নিম্নলিখিত মেঘ API- তে অ্যাক্সেস মঞ্জুর লেবেল। (এই ক্লাস্টারের জন্য আপনার প্রকল্পের অন্যান্য টুকরো অ্যাক্সেসের প্রয়োজন এটি যদি আপনি এই পদক্ষেপটি মিস করেন তবে পরে এটি ঠিক করা কিছুটা জটিল)

    3. ক্লিক করুন তৈরি করুন, এবং বেশ কয়েক মিনিট পর্যন্ত অপেক্ষা ক্লাস্টার তৈরি করা হয়েছে।

    4. একটি নেমস্পেস এবং উদাহরণের নাম নির্বাচন করুন (ডিফল্টগুলি ব্যবহার করে ভাল হয়)। আপনি ব্যবহার পরিচালিত সঞ্চয়স্থান পরীক্ষা করতে হবে না।

    5. স্থাপন ক্লিক করুন, এবং যতক্ষণ না পাইপলাইন স্থাপন করা হয়েছে বিভিন্ন মুহূর্ত অপেক্ষা করুন। কুবেফ্লো পাইপলাইন মোতায়েনের মাধ্যমে আপনি পরিষেবার শর্তাদি স্বীকার করেন।

৩. ক্লাউড এআই প্ল্যাটফর্ম নোটবুক উদাহরণটি সেট আপ করুন।

  1. যান এআই প্ল্যাটফর্ম নোটবুক পাতা।

    প্রধান নেভিগেশন মেনু এর অধীনে: ≡ -> এআই প্ল্যাটফর্ম -> নোটবুক

  2. যদি অনুরোধ করা হয় তবে কম্পিউট ইঞ্জিন এপিআই সক্ষম করুন।

  3. TensorFlow 2.1 (বা উচ্চতর) ইনস্টল সঙ্গে একটি নতুন দৃষ্টান্ত তৈরি করুন।

    নতুন উদাহরণ -> টেনসরফ্লো 2.1 -> জিপিইউ ছাড়াই

    ফ্রি টিয়ার সীমাতে থাকার জন্য, এখানে ডিফল্ট সেটিংস গ্রহণ করবেন না। আপনাকে এই উদাহরণে উপলব্ধ ভিসিপিইউগুলির সংখ্যা 4 থেকে 2 থেকে হ্রাস করতে হবে:

    1. নিউ নোটবুক উদাহরণস্বরূপ ফর্মের নীচে কাস্টমাইজ নির্বাচন করুন।
    2. 1 বা 2 vCPUs সঙ্গে একটি মেশিন কনফিগারেশন নির্বাচন করুন।

4. প্রারম্ভিক নোটবুক চালু করুন

  1. যান এআই প্ল্যাটফর্ম পাইপলাইন ক্লাস্টার পাতা।

    প্রধান নেভিগেশন মেনু এর অধীনে: ≡ -> এআই প্ল্যাটফর্ম -> পাইপলাইন

  2. ক্লাস্টার আপনি এই টিউটোরিয়াল ব্যবহার করছেন জন্য লাইন, ওপেন পাইপলাইন ড্যাশবোর্ড এ ক্লিক করুন।

    ওপেন ড্যাশবোর্ড

  3. শুরু করা পৃষ্ঠায় ক্লিক খুলুন মেমরি 2.1 নোটবুক।

  4. এই টিউটোরিয়ালের জন্য নোটবুক উদাহরণস্বরূপ আপনি ব্যবহার করছেন নির্বাচন করুন এবং চালিয়ে যান।

    সিলেক্ট নোটবুক

৫. নোটবুকে কাজ চালিয়ে যান

ইনস্টল করুন

ইনস্টল করার মাধ্যমে শুরু করা নোটবুক শুরু TFX এবং Kubeflow পাইপলাইন (KFP) VM- র যা Jupyter ল্যাব চলছে মধ্যে।

এরপরে টিএফএক্স এর কোন সংস্করণ ইনস্টল করা আছে, একটি আমদানি করে এবং প্রকল্প আইডি সেট করে এবং মুদ্রণ করে তা পরীক্ষা করে:

পাইথন সংস্করণ এবং আমদানি পরীক্ষা করুন

আপনার গুগল ক্লাউড পরিষেবাগুলির সাথে সংযুক্ত হন

পাইপলাইন কনফিগারেশন আপনার প্রজেক্ট আইডি প্রয়োজন, যা আপনি নোটবুকের মাধ্যমে পেতে পারেন এবং পরিবেশগত পরিবর্তনশীল হিসাবে সেট করতে পারেন।

# Read GCP project id from env.
shell_output=!gcloud config list --format 'value(core.project)' 2>/dev/null
GCP_PROJECT_ID=shell_output[0]
print("GCP project ID:" + GCP_PROJECT_ID)

এখন আপনার কেএফপি ক্লাস্টার শেষ পয়েন্ট সেট করুন।

এটি পাইপলাইন ড্যাশবোর্ডের URL থেকে পাওয়া যাবে। কুবেফ্লো পাইপলাইন ড্যাশবোর্ডে যান এবং URL টি দেখুন। শেষবিন্দু দিয়ে শুরু URL- এ সবকিছু https:// , আপ, এবং সহ, googleusercontent.com

ENDPOINT='' # Enter YOUR ENDPOINT here.

নোটবুকটি কাস্টম ডকার চিত্রের জন্য একটি অনন্য নাম সেট করে:

# Docker image name for the pipeline image
CUSTOM_TFX_IMAGE='gcr.io/' + GCP_PROJECT_ID + '/tfx-pipeline'

Your. আপনার প্রকল্প ডিরেক্টরিতে একটি টেম্পলেট অনুলিপি করুন

আপনার পাইপলাইনের জন্য একটি নাম সেট করতে পরবর্তী নোটবুক সেলটি সম্পাদনা করুন। এই টিউটোরিয়ালে আমরা ব্যবহার করবে my_pipeline

PIPELINE_NAME="my_pipeline"
PROJECT_DIR=os.path.join(os.path.expanduser("~"),"imported",PIPELINE_NAME)

নোটবুক তারপর ব্যবহার tfx পাইপলাইন টেমপ্লেট কপি করতে CLI। এই টিউটোরিয়ালটি, বাইনারি শ্রেণীবিন্যাস সম্পাদন করতে শিকাগো ট্যাক্সি ডেটা সেটটি ব্যবহার করে, তাই টেমপ্লেটে মডেল সেট করে taxi :

!tfx template copy \
  --pipeline-name={PIPELINE_NAME} \
  --destination-path={PROJECT_DIR} \
  --model=taxi

নোটবুকটি তারপরে সিডাব্লুডি প্রসঙ্গে প্রকল্প ডিরেক্টরিতে পরিবর্তন করে:

%cd {PROJECT_DIR}

পাইপলাইন ফাইলগুলি ব্রাউজ করুন

ক্লাউড এআই প্ল্যাটফর্ম নোটবুকের বাম দিকে, আপনার একটি ফাইল ব্রাউজার দেখতে হবে। আপনার পাইপলাইন নাম (সঙ্গে একটি ডিরেক্টরি হতে হবে my_pipeline )। এটি খুলুন এবং ফাইলগুলি দেখুন। (আপনি এগুলি খুলতে এবং নোটবুকের পরিবেশ থেকেও সম্পাদনা করতে সক্ষম হবেন))

# You can also list the files from the shell
 ls

tfx template copy কমান্ড উপরে ফাইল একটি পাইপলাইন নির্মাণের একটি মৌলিক ফাঁসির মঞ্চ তৈরি করা হয়েছে। এর মধ্যে পাইথন সোর্স কোড, নমুনা ডেটা এবং জুপিটার নোটবুক অন্তর্ভুক্ত রয়েছে। এগুলি এই নির্দিষ্ট উদাহরণের জন্য বোঝানো হয়েছে। আপনার নিজস্ব পাইপলাইনের জন্য এগুলি আপনার পাইপলাইনের জন্য প্রয়োজনীয় ফাইলগুলির সহায়তা করবে requires

পাইথন ফাইলগুলির সংক্ষিপ্ত বিবরণ এখানে দেওয়া হল।

  • pipeline - এই ডিরেক্টরির পাইপলাইন সংজ্ঞা রয়েছে
    • configs.py - পাইপলাইন রানার্স জন্য সাধারণ ধ্রুবক সংজ্ঞায়িত
    • pipeline.py - সংজ্ঞায়িত TFX উপাদান এবং একটি পাইপলাইন
  • models - এই ডিরেক্টরির এমএল মডেল সংজ্ঞা রয়েছে।
    • features.py features_test.py - সংজ্ঞায়িত মডেল জন্য অতিরিক্ত বৈশিষ্ট্যগুলিও উপস্থিত রয়েছে
    • preprocessing.py / preprocessing_test.py - ব্যবহার কাজ preprocessing সংজ্ঞায়িত tf::Transform
    • estimator - এই ডিরেক্টরির একটি মূল্নির্ধারক ভিত্তিক মডেল রয়েছে।
      • constants.py - মডেল সংজ্ঞায়িত ধ্রুবক
      • model.py / model_test.py - সংজ্ঞায়িত DNN মডেল মেমরি মূল্নির্ধারক ব্যবহার
    • keras - এই ডিরেক্টরির একটি Keras ভিত্তিক মডেল রয়েছে।
      • constants.py - মডেল সংজ্ঞায়িত ধ্রুবক
      • model.py / model_test.py - সংজ্ঞায়িত Keras ব্যবহার DNN মডেল
  • beam_runner.py / kubeflow_runner.py - প্রতিটি অর্কেস্ট্রারচনা ইঞ্জিন রানার্স সংজ্ঞায়িত

7. কুবেফ্লোতে আপনার প্রথম টিএফএক্স পাইপলাইন চালান

নোটবুক পাইপলাইন ব্যবহার চালানো হবে tfx run CLI কমান্ড।

স্টোরেজ সংযোগ করুন

চলমান পাইপলাইনগুলি নিদর্শন যা সংরক্ষণ করা আছে তৈরি এমএল-মেটাডেটা । শিল্পকলাগুলি প্যলোডগুলি বোঝায়, এটি এমন ফাইল যা অবশ্যই কোনও ফাইল সিস্টেম বা ব্লক স্টোরেজে সংরক্ষণ করতে হবে। এই টিউটোরিয়ালের জন্য, আমরা সেটআপের সময় স্বয়ংক্রিয়ভাবে তৈরি করা বালতিটি ব্যবহার করে আমাদের মেটাডেটা পেইলডগুলি সঞ্চয় করতে জিসিএস ব্যবহার করব। তার নাম হবে <your-project-id>-kubeflowpipelines-default

পাইপলাইন তৈরি করুন

নোটবুকটি জিএসসি বালতিতে আমাদের নমুনা ডেটা আপলোড করবে যাতে আমরা পরে এটি আমাদের পাইপলাইনে ব্যবহার করতে পারি।

gsutil cp data/data.csv gs://{GOOGLE_CLOUD_PROJECT}-kubeflowpipelines-default/tfx-template/data/taxi/data.csv

নোটবুক তারপর ব্যবহার tfx pipeline create পাইপলাইন তৈরি করতে কমান্ড।

!tfx pipeline create  \
--pipeline-path=kubeflow_runner.py \
--endpoint={ENDPOINT} \
--build-image

একটি পাইপলাইন তৈরি করার সময়, Dockerfile একটি Docker ইমেজ গড়ে তুলতে তৈরি করা হবে। এই উত্সগুলি অন্যান্য উত্স ফাইলগুলির সাথে আপনার উত্স নিয়ন্ত্রণ সিস্টেমে (উদাহরণস্বরূপ, গিট) যুক্ত করতে ভুলবেন না।

পাইপলাইন চালাও

নোটবুক তারপর ব্যবহার tfx run create কমান্ড আপনার পাইপলাইন একজন মৃত্যুদন্ড রান শুরু। আপনি এই রানটি কুবেফ্লো পাইপলাইন ড্যাশবোর্ডে পরীক্ষার অধীনে তালিকাভুক্ত দেখতে পাবেন।

tfx run create --pipeline-name={PIPELINE_NAME} --endpoint={ENDPOINT}

আপনি আপনার পাইপলাইন কুবেরফ্লো পাইপলাইন ড্যাশবোর্ড থেকে দেখতে পারেন।

৮. আপনার ডেটা যাচাই করুন

যে কোনও ডেটা সায়েন্স বা এমএল প্রকল্পের প্রথম কাজটি হ'ল ডেটা বোঝা এবং পরিষ্কার করা।

  • প্রতিটি বৈশিষ্ট্যের জন্য ডেটা প্রকারগুলি বুঝতে
  • অসঙ্গতি এবং অনুপস্থিত মানগুলির সন্ধান করুন
  • প্রতিটি বৈশিষ্ট্যের জন্য বিতরণ বুঝতে

উপাদান

ডেটা উপাদানডেটা উপাদান

  • ExampleGen ingests এবং ইনপুট ডেটা সেটটি splits।
  • StatisticsGen ডেটা সেটটি জন্য পরিসংখ্যান হিসাব করে।
  • SchemaGen SchemaGen পরিসংখ্যান পরীক্ষা করে এবং একটি ডাটা স্কিমা তৈরি করে।
  • ExampleValidator ব্যতিক্রমসমূহ এবং ডেটাসেটে অনুপস্থিত মানের জন্য দেখায়।

জুপিটার ল্যাব ফাইল সম্পাদকে:

ইন pipeline / pipeline.py , uncomment লাইন যা আপনার পাইপলাইন এইসব উপাদান যোগ:

# components.append(statistics_gen)
# components.append(schema_gen)
# components.append(example_validator)

( ExampleGen ইতিমধ্যেই সক্ষম হয় যখন টেমপ্লেট ফাইল কপি করা হয়েছে।)

পাইপলাইন আপডেট করুন এবং এটি আবার চালান

# Update the pipeline
! tfx pipeline update \
  --pipeline-path=kubeflow_runner.py \
  --endpoint={ENDPOINT}

! tfx run create --pipeline-name "{PIPELINE_NAME}"

পাইপলাইন চেক করুন

কুবেরফ্লো অর্কেস্টেটরের জন্য, কেএফপি ড্যাশবোর্ডটি দেখুন এবং আপনার পাইপলাইন চালনার জন্য পৃষ্ঠায় পাইপলাইন আউটপুটগুলি সন্ধান করুন। বামদিকে "পরীক্ষা" ট্যাব এবং পরীক্ষার পৃষ্ঠাতে "সমস্ত রান" ক্লিক করুন। আপনার পাইপলাইনের নাম দিয়ে রানটি সন্ধান করতে সক্ষম হওয়া উচিত।

আরও উন্নত উদাহরণ

এখানে উপস্থাপিত উদাহরণটি কেবল আপনাকে শুরু করার জন্যই বোঝানো হয়েছে। একটি আরো উন্নত উদাহরণস্বরূপ দ্রষ্টব্য TensorFlow ডেটা ভ্যালিডেশন Colab

TFDV ব্যবহার অন্বেষণ এবং একটি ডেটাসেটের যাচাই করতে আরও তথ্যের জন্য, tensorflow.org উপর উদাহরণগুলি দেখুন

9. বৈশিষ্ট্য প্রকৌশল

আপনি আপনার ডেটার ভবিষ্যদ্বাণীমূলক গুণমান বাড়াতে পারেন এবং / অথবা বৈশিষ্ট্য ইঞ্জিনিয়ারিংয়ের মাধ্যমে মাত্রিকতা হ্রাস করতে পারেন।

  • বৈশিষ্ট্য অতিক্রম করে
  • শব্দভাণ্ডার
  • এম্বেডিংস
  • পিসিএ
  • শ্রেণিবদ্ধ এনকোডিং

টিএফএক্স ব্যবহার করার একটি সুবিধা হ'ল আপনি একবার আপনার রূপান্তর কোডটি লিখবেন এবং ফলস্বরূপ রূপান্তরগুলি প্রশিক্ষণ এবং পরিবেশনের মধ্যে সামঞ্জস্যপূর্ণ হবে।

উপাদান

রূপান্তর

  • ট্রান্সফর্ম ডেটা সেটটি উপর সঞ্চালিত বৈশিষ্ট্য ইঞ্জিনিয়ারিং।

জুপিটার ল্যাব ফাইল সম্পাদকে:

ইন pipeline / pipeline.py , খুঁজুন এবং লাইন যা appends uncomment ট্রান্সফর্ম পাইপলাইন।

# components.append(transform)

পাইপলাইন আপডেট করুন এবং এটি আবার চালান

# Update the pipeline
! tfx pipeline update \
  --pipeline-path=kubeflow_runner.py \
  --endpoint={ENDPOINT}

! tfx run create --pipeline-name "{PIPELINE_NAME}"

পাইপলাইন আউটপুট চেক করুন

কুবেরফ্লো অর্কেস্টেটরের জন্য, কেএফপি ড্যাশবোর্ডটি দেখুন এবং আপনার পাইপলাইন চালনার জন্য পৃষ্ঠায় পাইপলাইন আউটপুটগুলি সন্ধান করুন। বামদিকে "পরীক্ষা" ট্যাব এবং পরীক্ষার পৃষ্ঠাতে "সমস্ত রান" ক্লিক করুন। আপনার পাইপলাইনের নাম দিয়ে রানটি সন্ধান করতে সক্ষম হওয়া উচিত।

আরও উন্নত উদাহরণ

এখানে উপস্থাপিত উদাহরণটি কেবল আপনাকে শুরু করার জন্যই বোঝানো হয়েছে। একটি আরো উন্নত উদাহরণস্বরূপ দ্রষ্টব্য TensorFlow Colab ট্রান্সফর্ম

10. প্রশিক্ষণ

আপনার সুন্দর, পরিষ্কার, রূপান্তরিত ডেটা দিয়ে একটি টেনসরফ্লো মডেলকে প্রশিক্ষণ দিন।

  • পূর্ববর্তী পদক্ষেপ থেকে রূপান্তরগুলি অন্তর্ভুক্ত করুন যাতে তারা ধারাবাহিকভাবে প্রয়োগ করা হয়
  • উত্পাদনের জন্য সেভডমডেল হিসাবে ফলাফলগুলি সংরক্ষণ করুন
  • টেনসরবোর্ড ব্যবহার করে প্রশিক্ষণ প্রক্রিয়াটি ভিজ্যুয়ালাইজ করুন এবং অন্বেষণ করুন
  • মডেল পারফরম্যান্স বিশ্লেষণের জন্য একটি ইভালসেভডমডেল সংরক্ষণ করুন

উপাদান

জুপিটার ল্যাব ফাইল সম্পাদকে:

ইন pipeline / pipeline.py , খুঁজুন এবং uncomment যা পাইপলাইন প্রশিক্ষক appends:

# components.append(trainer)

পাইপলাইন আপডেট করুন এবং এটি আবার চালান

# Update the pipeline
! tfx pipeline update \
  --pipeline-path=kubeflow_runner.py \
  --endpoint={ENDPOINT}

! tfx run create --pipeline-name "{PIPELINE_NAME}"

পাইপলাইন আউটপুট চেক করুন

কুবেরফ্লো অর্কেস্টেটরের জন্য, কেএফপি ড্যাশবোর্ডটি দেখুন এবং আপনার পাইপলাইন চালনার জন্য পৃষ্ঠায় পাইপলাইন আউটপুটগুলি সন্ধান করুন। বামদিকে "পরীক্ষা" ট্যাব এবং পরীক্ষার পৃষ্ঠাতে "সমস্ত রান" ক্লিক করুন। আপনার পাইপলাইনের নাম দিয়ে রানটি সন্ধান করতে সক্ষম হওয়া উচিত।

আরও উন্নত উদাহরণ

এখানে উপস্থাপিত উদাহরণটি কেবল আপনাকে শুরু করার জন্যই বোঝানো হয়েছে। একটি আরো উন্নত উদাহরণস্বরূপ দ্রষ্টব্য TensorBoard টিউটোরিয়াল

11. মডেল কর্মক্ষমতা বিশ্লেষণ

শীর্ষ স্তরের মেট্রিকের চেয়ে বেশি বোঝা।

  • ব্যবহারকারীরা কেবল তাদের প্রশ্নের জন্য মডেল পারফরম্যান্স অনুভব করেন
  • ডেটার টুকরোগুলিতে দুর্বল পারফরম্যান্স শীর্ষ স্তরের মেট্রিক দ্বারা গোপন করা যেতে পারে
  • মডেল ন্যায্যতা গুরুত্বপূর্ণ
  • প্রায়শই ব্যবহারকারী বা ডেটাগুলির কী সাবসেটগুলি খুব গুরুত্বপূর্ণ, এবং এটি ছোটও হতে পারে
    • গুরুতর তবে অস্বাভাবিক পরিস্থিতিতে পারফরম্যান্স
    • প্রভাবশালী হিসাবে গুরুত্বপূর্ণ শ্রোতাদের জন্য পারফরম্যান্স
  • আপনি যদি বর্তমানে উত্পাদিত এমন কোনও মডেল প্রতিস্থাপন করছেন তবে প্রথমে নিশ্চিত হয়ে নিন যে নতুনটি আরও ভাল

উপাদান

  • Evaluator সঞ্চালিত প্রশিক্ষণ ফলাফল গভীর বিশ্লেষণ।

জুপিটার ল্যাব ফাইল সম্পাদকে:

ইন pipeline / pipeline.py , খুঁজুন এবং লাইন যা পাইপলাইন Evaluator appends uncomment:

components.append(evaluator)

পাইপলাইন আপডেট করুন এবং এটি আবার চালান

# Update the pipeline
! tfx pipeline update \
  --pipeline-path=kubeflow_runner.py \
  --endpoint={ENDPOINT}

! tfx run create --pipeline-name "{PIPELINE_NAME}"

পাইপলাইন আউটপুট চেক করুন

কুবেরফ্লো অর্কেস্টেটরের জন্য, কেএফপি ড্যাশবোর্ডটি দেখুন এবং আপনার পাইপলাইন চালনার জন্য পৃষ্ঠায় পাইপলাইন আউটপুটগুলি সন্ধান করুন। বামদিকে "পরীক্ষা" ট্যাব এবং পরীক্ষার পৃষ্ঠাতে "সমস্ত রান" ক্লিক করুন। আপনার পাইপলাইনের নাম দিয়ে রানটি সন্ধান করতে সক্ষম হওয়া উচিত।

12. মডেল পরিবেশন করা

নতুন মডেলটি প্রস্তুত থাকলে এটি তৈরি করুন make

  • পুশার স্যাভডমোডেলগুলি সুপরিচিত স্থানগুলিতে স্থাপন করে

স্থাপনার লক্ষ্যগুলি সুপরিচিত স্থানগুলি থেকে নতুন মডেলগুলি গ্রহণ করে

  • টেনসরফ্লো পরিবেশন করা
  • টেনসরফ্লো লাইট
  • টেনসরফ্লো জেএস
  • টেনসরফ্লো হাব

উপাদান

জুপিটার ল্যাব ফাইল সম্পাদকে:

ইন pipeline / pipeline.py , খুঁজুন এবং লাইন যে পাইপলাইন বিমানপোত appends uncomment:

# components.append(pusher)

পাইপলাইন আউটপুট চেক করুন

কুবেরফ্লো অর্কেস্টেটরের জন্য, কেএফপি ড্যাশবোর্ডটি দেখুন এবং আপনার পাইপলাইন চালনার জন্য পৃষ্ঠায় পাইপলাইন আউটপুটগুলি সন্ধান করুন। বামদিকে "পরীক্ষা" ট্যাব এবং পরীক্ষার পৃষ্ঠাতে "সমস্ত রান" ক্লিক করুন। আপনার পাইপলাইনের নাম দিয়ে রানটি সন্ধান করতে সক্ষম হওয়া উচিত।

উপলব্ধ স্থাপনার লক্ষ্যমাত্রা

আপনি এখন আপনার মডেলকে প্রশিক্ষণ দিয়েছেন এবং যাচাই করেছেন এবং আপনার মডেল এখন উত্পাদনের জন্য প্রস্তুত। আপনি এখন আপনার মডেলটিকে টেনসরফ্লো মোতায়েনের লক্ষ্যে যে কোনও একটিতে স্থাপন করতে পারেন, সহ:

  • TensorFlow পরিবেশন করছে , একটি সার্ভার বা সার্ভার খামারে আপনার মডেল ভজনা এবং প্রক্রিয়াকরণের বিশ্রাম ও / অথবা gRPC অনুমান অনুরোধের জন্য।
  • TensorFlow লাইট , একটি Android বা iOS নেটিভ মোবাইল অ্যাপ্লিকেশন মধ্যে আপনার মডেল, অথবা একটি রাস্পবেরী Pi এ, IOT, অথবা মাইক্রোকন্ট্রোলার আবেদন সহ।
  • TensorFlow.js , একটি ওয়েব ব্রাউজার বা Node.js অ্যাপ্লিকেশনে আপনার মডেল চালানোর জন্য।

আরও উন্নত উদাহরণ

উপরে উপস্থাপিত উদাহরণটি কেবল আপনাকে শুরু করার জন্য বোঝানো হয়েছে। নীচে অন্যান্য মেঘ পরিষেবাদির সাথে একীকরণের কয়েকটি উদাহরণ দেওয়া আছে।

কুবফ্লো পাইপলাইনের সংস্থানসমূহ বিবেচনা করে

আপনার কাজের চাপের প্রয়োজনীয়তার উপর নির্ভর করে, আপনার কুব্লু পাইপলাইন মোতায়েনের জন্য ডিফল্ট কনফিগারেশন আপনার প্রয়োজনগুলি মেটাতে পারে বা নাও পারে। ব্যবহার করে আপনি আপনার সংস্থান কনফিগারেশনের কাস্টমাইজ করতে পারেন pipeline_operator_funcs আপনার কলে KubeflowDagRunnerConfig

pipeline_operator_funcs একটি তালিকা রয়েছে OpFunc আইটেম, যা সব উত্পন্ন রূপান্তরিত ContainerOp KFP পাইপলাইন বৈশিষ্ট যা থেকে কম্পাইল করা হয় দৃষ্টান্ত KubeflowDagRunner

উদাহরণস্বরূপ, কনফিগার মেমরি আমরা ব্যবহার করতে পারি set_memory_request মেমরির পরিমাণ প্রয়োজন প্রচার করিবার জন্য। যে কাজ করতে একটা প্রচলিত উপায় একটি লেফাফা তৈরি করা set_memory_request এবং পাইপলাইন লিস্টে যোগ করার জন্য এটি ব্যবহার OpFunc S:

def request_more_memory():
  def _set_memory_spec(container_op):
    container_op.set_memory_request('32G')
  return _set_memory_spec

# Then use this opfunc in KubeflowDagRunner
pipeline_op_funcs = kubeflow_dag_runner.get_default_pipeline_operator_funcs()
pipeline_op_funcs.append(request_more_memory())
config = KubeflowDagRunnerConfig(
    pipeline_operator_funcs=pipeline_op_funcs,
    ...
)
kubeflow_dag_runner.KubeflowDagRunner(config=config).run(pipeline)

অনুরূপ সংস্থান কনফিগারেশন ফাংশন অন্তর্ভুক্ত:

  • set_memory_limit
  • set_cpu_request
  • set_cpu_limit
  • set_gpu_limit

ব্যবহার করে দেখুন BigQueryExampleGen

BigQuery- তে একটি serverless, অত্যন্ত আকার পরিবর্তনযোগ্য, এবং খরচ কার্যকর মেঘ ডেটা ওয়েরহাউজ। বিগকুয়েরিকে টিএফএক্সের প্রশিক্ষণের উদাহরণগুলির জন্য উত্স হিসাবে ব্যবহার করা যেতে পারে। এই পদক্ষেপ, আমরা যোগ হবে BigQueryExampleGen পাইপলাইন।

জুপিটার ল্যাব ফাইল সম্পাদকে:

খোলার জন্য দুবার-ক্লিক pipeline.py । আউট মন্তব্য CsvExampleGen এবং uncomment লাইন যার একটি দৃষ্টান্ত সৃষ্টি BigQueryExampleGen । এছাড়াও আপনি uncomment প্রয়োজন query আর্গুমেন্ট create_pipeline ফাংশন।

আমরা যা GCP প্রকল্পের BigQuery- তে ব্যবহার করার জন্য নির্দিষ্ট করতে হবে, এবং এই সেটিং দ্বারা সম্পন্ন করা হয় --project মধ্যে beam_pipeline_args যখন একটি পাইপলাইন তৈরি করা।

খোলার জন্য দুবার-ক্লিক configs.py । Uncomment সংজ্ঞা BIG_QUERY_WITH_DIRECT_RUNNER_BEAM_PIPELINE_ARGS এবং BIG_QUERY_QUERY । আপনার জিসিপি প্রকল্পের জন্য সঠিক মানগুলির সাথে আপনার এই ফাইলের প্রকল্প আইডি এবং অঞ্চল মানটি প্রতিস্থাপন করা উচিত।

ডিরেক্টরি এক স্তর উপরে পরিবর্তন করুন। ফাইল তালিকার উপরে ডিরেক্টরিটির নাম ক্লিক করুন। ডিরেক্টরি নাম পাইপলাইন যা নাম my_pipeline আপনি পাইপলাইন নাম পরিবর্তন হয়নি।

খোলার জন্য দুবার-ক্লিক kubeflow_runner.py । Uncomment দুটি আর্গুমেন্ট, query এবং beam_pipeline_args জন্য create_pipeline ফাংশন।

এখন পাইপলাইনটি বিগকোয়ারিকে উদাহরণ উত্স হিসাবে ব্যবহার করতে প্রস্তুত। পূর্বের মতো পাইপলাইন আপডেট করুন এবং একটি নতুন এক্সিকিউশন রান তৈরি করুন যা আমরা 5 এবং 6 ধাপে করেছি।

পাইপলাইন আপডেট করুন এবং এটি আবার চালান

# Update the pipeline
!tfx pipeline update \
  --pipeline-path=kubeflow_runner.py \
  --endpoint={ENDPOINT}

!tfx run create --pipeline-name {PIPELINE_NAME} --endpoint={ENDPOINT}

ডেটাফ্লো চেষ্টা করুন

বেশ কিছু TFX উপাদান এ্যাপাচি রশ্মি ব্যবহার ডেটা-সমান্তরাল পাইপলাইনগুলি বাস্তবায়ন, এবং এটি এর মানে হল যে আপনি ব্যবহার প্রক্রিয়াকরণের চাপ তথ্য বিতরণ করতে পারেন Google মেঘ Dataflow । এই পদক্ষেপে, আমরা অ্যাপাচি রশ্মির জন্য ডেটা প্রসেসিং ব্যাক-এন্ড হিসাবে ডেটাফ্লো ব্যবহার করার জন্য কুবেফ্লো অর্কেস্টেটরকে সেট করব।

# Select your project:
gcloud config set project YOUR_PROJECT_ID

# Get a list of services that you can enable in your project:
gcloud services list --available | grep Dataflow

# If you don't see dataflow.googleapis.com listed, that means you haven't been
# granted access to enable the Dataflow API.  See your account adminstrator.

# Enable the Dataflow service:

gcloud services enable dataflow.googleapis.com

ডাবল-ক্লিক pipeline পরিবর্তন ডিরেক্টরি, এবং খোলার জন্য দুবার-ক্লিক configs.py । Uncomment সংজ্ঞা GOOGLE_CLOUD_REGION এবং DATAFLOW_BEAM_PIPELINE_ARGS

ডিরেক্টরি এক স্তর উপরে পরিবর্তন করুন। ফাইল তালিকার উপরে ডিরেক্টরিটির নাম ক্লিক করুন। ডিরেক্টরি নাম পাইপলাইন যা নাম my_pipeline যদি আপনি পরিবর্তন হয়নি।

খোলার জন্য দুবার-ক্লিক kubeflow_runner.py । Uncomment beam_pipeline_args । (এছাড়াও নিশ্চিত বর্তমান মন্তব্য করতে beam_pipeline_args আপনি ধাপ 7. যোগ)

পাইপলাইন আপডেট করুন এবং এটি আবার চালান

# Update the pipeline
!tfx pipeline update \
  --pipeline-path=kubeflow_runner.py \
  --endpoint={ENDPOINT}

!tfx run create --pipeline-name {PIPELINE_NAME} --endpoint={ENDPOINT}

আপনি আপনার Dataflow কাজ জানতে পারেন ক্লাউড কনসোলে Dataflow

কেএফপি সহ ক্লাউড এআই প্ল্যাটফর্ম প্রশিক্ষণ এবং ভবিষ্যদ্বাণী ব্যবহার করে দেখুন

যেমন বিভিন্ন পরিচালিত GCP পরিষেবাগুলির সাথে TFX interoperates প্রশিক্ষণ এবং Prediction জন্য মেঘ এআই প্ল্যাটফর্ম । তুমি তোমার সেট করতে পারেন Trainer উপাদান ক্লাউড এআই প্ল্যাটফর্ম প্রশিক্ষণ, এমএল মডেলের প্রশিক্ষণ জন্য একটি পরিচালিত পরিষেবাটি ব্যবহার করার জন্য। তাছাড়া, যখন আপনার মডেল নির্মিত এবং প্রস্তুত করা হয় সার্ভ করা জন্য, আপনাকে আপনার মডেল ক্লাউড এআই প্ল্যাটফর্ম ভবিষ্যদ্বাণী ভজনা জন্য ধাক্কা পারেন। এই পদক্ষেপে, আমরা আমাদের সেট হবে Trainer এবং Pusher উপাদান ক্লাউড এআই প্ল্যাটফর্ম পরিষেবাগুলি ব্যবহার করতে।

ফাইল সম্পাদনার আগে, আপনি প্রথম এআই প্ল্যাটফর্ম প্রশিক্ষণ ও Prediction API এর সক্রিয় করতে থাকতে পারে।

ডাবল-ক্লিক pipeline পরিবর্তন ডিরেক্টরি, এবং খোলার জন্য দুবার-ক্লিক configs.py । Uncomment সংজ্ঞা GOOGLE_CLOUD_REGION , GCP_AI_PLATFORM_TRAINING_ARGS এবং GCP_AI_PLATFORM_SERVING_ARGS । আমরা আমাদের কাস্টম বিল্ড ধারক ইমেজ ব্যবহার ক্লাউড এআই প্ল্যাটফর্ম প্রশিক্ষণ একটি মডেল প্রশিক্ষণের হবে, তাই আমরা সেট করা উচিত masterConfig.imageUri মধ্যে GCP_AI_PLATFORM_TRAINING_ARGS হিসাবে একই মান CUSTOM_TFX_IMAGE উপরে।

পরিবর্তন ডিরেক্টরি এক স্তর উপরে, এবং খোলার জন্য দুবার-ক্লিক kubeflow_runner.py । Uncomment ai_platform_training_args এবং ai_platform_serving_args

পাইপলাইন আপডেট করুন এবং এটি আবার চালান

# Update the pipeline
!tfx pipeline update \
  --pipeline-path=kubeflow_runner.py \
  --endpoint={ENDPOINT}

!tfx run create --pipeline-name {PIPELINE_NAME} --endpoint={ENDPOINT}

আপনি আপনার প্রশিক্ষণ কাজ জানতে পারেন ক্লাউড এআই প্ল্যাটফর্ম জবস । যদি আপনার পাইপলাইন সফলভাবে সম্পূর্ণ, আপনি আপনার মডেল জানতে পারেন ক্লাউড এআই প্ল্যাটফর্ম মডেল

14. আপনার নিজস্ব ডেটা ব্যবহার করুন

এই টিউটোরিয়ালে, আপনি শিকাগো ট্যাক্সি ডেটাসেট ব্যবহার করে কোনও মডেলের জন্য পাইপলাইন তৈরি করেছেন। এখন আপনার নিজের ডেটা পাইপলাইনে রাখার চেষ্টা করুন। আপনার ডেটা গুগল ক্লাউড স্টোরেজ, বিগকিউয়ারি বা সিএসভি ফাইল সহ পাইপলাইনটি যে কোনও জায়গায় এটি অ্যাক্সেস করতে পারে এমন জায়গায় সংরক্ষণ করা যেতে পারে।

আপনার ডেটা সামঞ্জস্য করার জন্য আপনাকে পাইপলাইন সংজ্ঞাটি পরিবর্তন করতে হবে।

যদি আপনার ডেটা ফাইলগুলিতে জমা থাকে

  1. পরিবর্তন করুন DATA_PATH মধ্যে kubeflow_runner.py , অবস্থান নির্দেশ করে।

যদি আপনার ডেটা বিগকুয়েরিতে সঞ্চিত থাকে

  1. পরিবর্তন করুন BIG_QUERY_QUERY আপনার প্রশ্নের বিবৃতি configs.py হবে।
  2. মধ্যে বৈশিষ্ট্য যোগ করুন models / features.py
  3. পরিবর্তন করুন models / preprocessing.py করতে প্রশিক্ষণের জন্য ইনপুট ডেটা রুপান্তর
  4. পরিবর্তন করুন models / keras / model.py এবং models / keras / constants.py করার বর্ণনা আপনার এমএল মডেল

প্রশিক্ষক সম্পর্কে আরও জানুন

দেখুন প্রশিক্ষক উপাদান নির্দেশিকা প্রশিক্ষণ পাইপলাইনগুলি আরও বিশদের জন্য।

পরিষ্কার আপ

এই প্রকল্পে ব্যবহৃত সমস্ত Google মেঘ সম্পদ পরিষ্কার করতে, আপনি পারেন Google মেঘ প্রকল্পটি মুছে আপনি টিউটোরিয়াল জন্য ব্যবহৃত।

-: অন্যথা, আপনি প্রতিটি কনসোল পরিদর্শন করে পৃথক সম্পদ পরিষ্কার করতে পারে Google মেঘ সংগ্রহস্থল - গুগল কনটেইনার রেজিস্ট্রি - গুগল Kubernetes ইঞ্জিন