সাহায্য Kaggle উপর TensorFlow সঙ্গে গ্রেট বেরিয়ার রিফ রক্ষা চ্যালেঞ্জ যোগদান

টিএফএক্স ব্যবহারকারী গাইড

ভূমিকা

TFX হল একটি Google-প্রোডাকশন-স্কেল মেশিন লার্নিং (ML) প্ল্যাটফর্ম যা TensorFlow-এর উপর ভিত্তি করে। এটি একটি কনফিগারেশন ফ্রেমওয়ার্ক এবং শেয়ার্ড লাইব্রেরি প্রদান করে আপনার মেশিন লার্নিং সিস্টেমকে সংজ্ঞায়িত, লঞ্চ এবং নিরীক্ষণ করার জন্য প্রয়োজনীয় সাধারণ উপাদানগুলিকে একীভূত করতে।

TFX 1.0

আমরা প্রাপ্যতা ঘোষনা করছে TFX 1.0.0 । এটি TFX-এর প্রাথমিক পোস্ট-বিটা রিলিজ, যা স্থিতিশীল পাবলিক API এবং আর্টিফ্যাক্ট প্রদান করে। আপনি নিশ্চিত থাকতে পারেন যে আপনার ভবিষ্যত TFX পাইপলাইনগুলি সামঞ্জস্য সুযোগ এই সংজ্ঞায়িত মধ্যে আপগ্রেড করার পরে কাজ রাখা হবে বোঝায় যা RFC

স্থাপন

পাইথনPyPI

pip install tfx

রাত্রিকালীন প্যাকেজ

TFX এছাড়াও রাত্রিকালীন প্যাকেজ হোস্ট https://pypi-nightly.tensorflow.org Google মেঘ উপর। সর্বশেষ রাতের প্যাকেজ ইনস্টল করতে, অনুগ্রহ করে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

pip install -i https://pypi-nightly.tensorflow.org/simple --pre tfx

এটি TFX-এর প্রধান নির্ভরতার জন্য রাত্রিকালীন প্যাকেজগুলি ইনস্টল করবে যেমন TensorFlow মডেল বিশ্লেষণ (TFMA), টেনসরফ্লো ডেটা ভ্যালিডেশন (TFDV), টেনসরফ্লো ট্রান্সফর্ম (TFT), TFX বেসিক শেয়ারড লাইব্রেরি (TFX-BSL), ML মেটাডেটা (MLMD)।

TFX সম্পর্কে

TFX হল একটি উৎপাদন পরিবেশে এমএল ওয়ার্কফ্লো তৈরি ও পরিচালনা করার একটি প্ল্যাটফর্ম। TFX নিম্নলিখিত প্রদান করে:

  • এমএল পাইপলাইন নির্মাণের জন্য একটি টুলকিট। TFX পাইপলাইনগুলি আপনাকে বিভিন্ন প্ল্যাটফর্মে আপনার ML ওয়ার্কফ্লো অর্কেস্ট্রেট করতে দেয়, যেমন: Apache Airflow, Apache Beam, এবং Kubeflow Pipelines।

    TFX পাইপলাইনগুলি সম্পর্কে আরো জানুন

  • মানক উপাদানগুলির একটি সেট যা আপনি একটি পাইপলাইনের একটি অংশ হিসাবে বা আপনার ML প্রশিক্ষণ স্ক্রিপ্টের একটি অংশ হিসাবে ব্যবহার করতে পারেন৷ TFX স্ট্যান্ডার্ড উপাদানগুলি আপনাকে সহজে একটি ML প্রক্রিয়া তৈরি করতে সাহায্য করার জন্য প্রমাণিত কার্যকারিতা প্রদান করে।

    TFX মান উপাদান সম্পর্কে আরো জানুন

  • লাইব্রেরি যা অনেক স্ট্যান্ডার্ড উপাদানের জন্য ভিত্তি কার্যকারিতা প্রদান করে। আপনি আপনার নিজস্ব কাস্টম উপাদানগুলিতে এই কার্যকারিতা যোগ করতে TFX লাইব্রেরিগুলি ব্যবহার করতে পারেন, বা আলাদাভাবে ব্যবহার করতে পারেন।

    TFX লাইব্রেরি সম্পর্কে আরো জানুন

TFX হল TensorFlow-এর উপর ভিত্তি করে একটি Google-প্রোডাকশন-স্কেল মেশিন লার্নিং টুলকিট। এটি একটি কনফিগারেশন ফ্রেমওয়ার্ক এবং শেয়ার্ড লাইব্রেরি প্রদান করে আপনার মেশিন লার্নিং সিস্টেমকে সংজ্ঞায়িত, লঞ্চ এবং নিরীক্ষণ করার জন্য প্রয়োজনীয় সাধারণ উপাদানগুলিকে একীভূত করতে।

TFX স্ট্যান্ডার্ড উপাদান

একজন TFX পাইপলাইন উপাদান যে বাস্তবায়ন একটি ক্রম এমএল পাইপলাইন যা বিশেষভাবে মাপযোগ্য, উচ্চ ক্ষমতা সম্পন্ন মেশিন কর্ম শেখার জন্য নির্মিত হয়েছে। এর মধ্যে রয়েছে মডেলিং, প্রশিক্ষণ, সার্ভিং ইনফারেন্স, এবং অনলাইন, নেটিভ মোবাইল এবং জাভাস্ক্রিপ্ট টার্গেটে স্থাপনার ব্যবস্থাপনা।

একটি TFX পাইপলাইনে সাধারণত নিম্নলিখিত উপাদান থাকে:

  • ExampleGen একটি পাইপলাইন যে ingests এবং ঐচ্ছিকরূপে ইনপুট ডেটা সেটটি splits প্রাথমিক ইনপুট উপাদান।

  • StatisticsGen ডেটা সেটটি জন্য পরিসংখ্যান হিসাব করে।

  • SchemaGen পরিসংখ্যান পরীক্ষা করে এবং একটি ডাটা স্কিমা তৈরি করে।

  • ExampleValidator ব্যতিক্রমসমূহ এবং ডেটাসেটে অনুপস্থিত মানের জন্য দেখায়।

  • ট্রান্সফর্ম ডেটা সেটটি উপর সঞ্চালিত বৈশিষ্ট্য ইঞ্জিনিয়ারিং।

  • প্রশিক্ষক মডেল ট্রেন।

  • টিউনার মডেলের hyperparameters টিউন করে।

  • Evaluator সঞ্চালিত প্রশিক্ষণ ফলাফল গভীর বিশ্লেষণ এবং আপনি আপনার রপ্তানি মডেল যাচাই নিশ্চিত যে, তারা "ভালো যথেষ্ট" হয় উৎপাদন ধাক্কা হতে সাহায্য করবে।

  • InfraValidator ধাক্কা হওয়া থেকে চেক মডেল আসলে পরিকাঠামো থেকে পরিবেশনযোগ্য, এবং প্রতিরোধ খারাপ মডেল।

  • বিমানপোত একটি ভজনা পরিকাঠামোতে মডেল স্থাপন।

  • BulkInferrer লেবেল বিহীন অনুমান অনুরোধ সঙ্গে একটি মডেল উপর সঞ্চালিত ব্যাচ প্রসেসিং।

এই চিত্রটি এই উপাদানগুলির মধ্যে ডেটা প্রবাহকে চিত্রিত করে:

উপাদান প্রবাহ

TFX লাইব্রেরি

TFX লাইব্রেরি এবং পাইপলাইন উভয় উপাদানই অন্তর্ভুক্ত করে। এই চিত্রটি TFX লাইব্রেরি এবং পাইপলাইন উপাদানগুলির মধ্যে সম্পর্কগুলিকে চিত্রিত করে:

লাইব্রেরি এবং উপাদান

TFX বিভিন্ন পাইথন প্যাকেজ প্রদান করে যেগুলি লাইব্রেরি যা পাইপলাইন উপাদান তৈরি করতে ব্যবহৃত হয়। আপনার পাইপলাইনগুলির উপাদানগুলি তৈরি করতে আপনি এই লাইব্রেরিগুলি ব্যবহার করবেন যাতে আপনার কোডটি আপনার পাইপলাইনের অনন্য দিকগুলিতে ফোকাস করতে পারে৷

TFX লাইব্রেরি অন্তর্ভুক্ত:

  • TensorFlow ডেটা ভ্যালিডেশন (TFDV) বিশ্লেষণ এবং যাচাই মেশিন লার্নিং ডেটার জন্য একটি লাইব্রেরী। এটি অত্যন্ত মাপযোগ্য এবং TensorFlow এবং TFX এর সাথে ভালভাবে কাজ করার জন্য ডিজাইন করা হয়েছে। TFDV অন্তর্ভুক্ত:

    • প্রশিক্ষণ এবং পরীক্ষার ডেটার সারাংশ পরিসংখ্যানের পরিমাপযোগ্য গণনা।
    • ডেটা বন্টন এবং পরিসংখ্যানের জন্য একজন দর্শকের সাথে একীকরণ, সেইসাথে ডেটাসেটের জোড়ার (ফেসেট) দিকগত তুলনা।
    • প্রয়োজনীয় মান, ব্যাপ্তি এবং শব্দভান্ডারের মতো ডেটা সম্পর্কে প্রত্যাশাগুলি বর্ণনা করতে স্বয়ংক্রিয় ডেটা-স্কিমা তৈরি।
    • স্কিমা পরিদর্শন করতে আপনাকে সাহায্য করার জন্য একটি স্কিমা ভিউয়ার৷
    • অসঙ্গতি শনাক্ত করতে অসঙ্গতি সনাক্তকরণ, যেমন অনুপস্থিত বৈশিষ্ট্য, সীমার বাইরের মান, বা ভুল বৈশিষ্ট্যের ধরন, কয়েকটি নাম।
    • একটি অসামঞ্জস্য দর্শক যাতে আপনি দেখতে পারেন কোন বৈশিষ্ট্যগুলিতে অসামঞ্জস্য রয়েছে এবং সেগুলি সংশোধন করার জন্য আরও শিখতে পারেন৷
  • TensorFlow ট্রান্সফর্ম (টিএফটি) TensorFlow সাথে ডেটা preprocessing জন্য একটি লাইব্রেরী। টেনসরফ্লো ট্রান্সফর্ম সেই ডেটার জন্য উপযোগী যার জন্য পূর্ণ-পাস প্রয়োজন, যেমন:

    • গড় এবং মানক বিচ্যুতি দ্বারা একটি ইনপুট মান স্বাভাবিক করুন।
    • সমস্ত ইনপুট মানগুলির উপর একটি শব্দভান্ডার তৈরি করে স্ট্রিংগুলিকে পূর্ণসংখ্যাতে রূপান্তর করুন।
    • পর্যবেক্ষণ করা ডেটা বিতরণের উপর ভিত্তি করে বালতিতে ফ্লোটগুলিকে পূর্ণসংখ্যাতে রূপান্তর করুন।
  • TensorFlow TFX সঙ্গে মডেল প্রশিক্ষণ জন্য ব্যবহৃত হয়। এটি প্রশিক্ষণ ডেটা এবং মডেলিং কোড গ্রহণ করে এবং একটি সংরক্ষিত মডেল ফলাফল তৈরি করে। এটি ইনপুট ডেটা প্রিপ্রসেস করার জন্য টেনসরফ্লো ট্রান্সফর্ম দ্বারা তৈরি একটি বৈশিষ্ট্য ইঞ্জিনিয়ারিং পাইপলাইনকেও একীভূত করে।

    KerasTuner মডেল জন্য সুরকরণ hyperparameters জন্য ব্যবহৃত হয়।

  • TensorFlow মডেল বিশ্লেষণ (TFMA) TensorFlow মডেলের মূল্যায়নের জন্য একটি লাইব্রেরী। এটি একটি EvalSavedModel তৈরি করতে TensorFlow এর সাথে ব্যবহার করা হয়, যা এর বিশ্লেষণের ভিত্তি হয়ে ওঠে। এটি ব্যবহারকারীদের তাদের প্রশিক্ষক দ্বারা সংজ্ঞায়িত একই মেট্রিক্স ব্যবহার করে বিতরণ করা পদ্ধতিতে প্রচুর পরিমাণে ডেটার উপর তাদের মডেলগুলি মূল্যায়ন করতে দেয়। এই মেট্রিক্সগুলি ডেটার বিভিন্ন স্লাইস দিয়ে গণনা করা যেতে পারে এবং জুপিটার নোটবুকে ভিজ্যুয়ালাইজ করা যেতে পারে।

  • TensorFlow মেটাডেটা (TFMD) মেটাডেটা উপযোগী যখন প্রশিক্ষণ মেশিন TensorFlow সঙ্গে লার্নিং মডেলগুলির জন্য আদর্শ উপস্থাপনা প্রদান করে। ইনপুট ডেটা বিশ্লেষণের সময় মেটাডেটা হাতে বা স্বয়ংক্রিয়ভাবে উত্পাদিত হতে পারে এবং ডেটা যাচাইকরণ, অন্বেষণ এবং রূপান্তরের জন্য ব্যবহার করা যেতে পারে। মেটাডেটা সিরিয়ালাইজেশন ফরম্যাট অন্তর্ভুক্ত:

    • ট্যাবুলার ডেটা বর্ণনাকারী একটি স্কিমা (যেমন, tf. উদাহরণ)।
    • এই ধরনের ডেটাসেটের উপর সংক্ষিপ্ত পরিসংখ্যানের একটি সংগ্রহ।
  • এমএল মেটাডেটা (MLMD) রেকর্ডিং এবং এমএল ডেভেলপার এবং তথ্য বিজ্ঞানী কর্মপ্রবাহ সঙ্গে যুক্ত মেটাডেটা পুনরুদ্ধারের জন্য একটি লাইব্রেরী। প্রায়শই মেটাডেটা TFMD উপস্থাপনা ব্যবহার করে। MLMD ব্যবহার অধ্যবসায় পরিচালনা করে এসকিউএল লাইট , মাইএসকিউএল , এবং অন্যান্য অনুরূপ তথ্য সঞ্চয় করে।

সাপোর্টিং টেকনোলজিস

প্রয়োজন

  • এ্যাপাচি রশ্মি একটি ওপেন সোর্স, উভয় ব্যাচ সংজ্ঞা এবং তথ্য-সমান্তরাল প্রক্রিয়াজাতকরণ পাইপলাইনগুলি স্ট্রিমিং করার জন্য একত্রে মডেল। TFX ডেটা-সমান্তরাল পাইপলাইন বাস্তবায়নের জন্য Apache Beam ব্যবহার করে। পাইপলাইন তারপর রশ্মি এর সমর্থিত বিতরণ প্রক্রিয়াজাতকরণ ব্যাক প্রান্ত, যা এ্যাপাচি Flink, এ্যাপাচি স্পার্ক অন্তর্ভুক্ত এক দ্বারা মৃত্যুদন্ড কার্যকর করা হয় Google মেঘ Dataflow , এবং অন্যদের।

ঐচ্ছিক

Apache Airflow এবং Kubeflow-এর মতো অর্কেস্ট্রেটররা ML পাইপলাইন কনফিগার, পরিচালনা, পর্যবেক্ষণ এবং রক্ষণাবেক্ষণকে সহজ করে তোলে।

  • এ্যাপাচি Airflow প্রোগ্রামেটিক্যালি লেখক, সময়সূচী এবং মনিটর কর্মপ্রবাহ করার জন্য একটি প্ল্যাটফর্ম। TFX কার্যের নির্দেশিত অ্যাসাইক্লিক গ্রাফ (DAGs) হিসাবে লেখক ওয়ার্কফ্লোতে এয়ারফ্লো ব্যবহার করে। এয়ারফ্লো শিডিয়ুলার নির্দিষ্ট নির্ভরতা অনুসরণ করার সময় কর্মীদের একটি অ্যারের উপর কার্য সম্পাদন করে। সমৃদ্ধ কমান্ড লাইন ইউটিলিটিগুলি DAG-তে জটিল অস্ত্রোপচার করাকে স্ন্যাপ করে তোলে। সমৃদ্ধ ইউজার ইন্টারফেস উত্পাদনে চলমান পাইপলাইনগুলিকে কল্পনা করা, অগ্রগতি নিরীক্ষণ করা এবং প্রয়োজনে সমস্যা সমাধান করা সহজ করে তোলে। যখন ওয়ার্কফ্লোগুলিকে কোড হিসাবে সংজ্ঞায়িত করা হয়, তখন তারা আরও রক্ষণাবেক্ষণযোগ্য, সংস্করণযোগ্য, পরীক্ষাযোগ্য এবং সহযোগী হয়ে ওঠে।

  • Kubeflow মেশিন লার্নিং এর স্থাপনার উপার্জন নিবেদিত (এমএল) Kubernetes সহজ, পোর্টেবল এবং আকার পরিবর্তনযোগ্য উপর Workflows। Kubeflow এর লক্ষ্য অন্যান্য পরিষেবাগুলি পুনরায় তৈরি করা নয়, কিন্তু বিভিন্ন পরিকাঠামোতে ML-এর জন্য সেরা-প্রজাতির ওপেন-সোর্স সিস্টেমগুলি স্থাপন করার একটি সহজ উপায় প্রদান করা। Kubeflow পাইপলাইন রচনা ও Kubeflow উপর পুনরায় উত্পাদন কর্মপ্রবাহ, পরীক্ষা এবং নোটবুক ভিত্তিক অভিজ্ঞতার সাথে একত্রিত সঞ্চালনের সক্ষম করুন। Kubernetes-এর Kubeflow Pipelines পরিষেবাগুলির মধ্যে রয়েছে হোস্ট করা মেটাডেটা স্টোর, কন্টেইনার ভিত্তিক অর্কেস্ট্রেশন ইঞ্জিন, নোটবুক সার্ভার এবং UI যাতে ব্যবহারকারীদের স্কেলে জটিল ML পাইপলাইনগুলি বিকাশ, চালানো এবং পরিচালনা করতে সহায়তা করে৷ কুবেফ্লো পাইপলাইন SDK প্রোগ্রামগতভাবে পাইপলাইনগুলির উপাদানগুলি তৈরি এবং ভাগ করে নেওয়ার অনুমতি দেয়।

পোর্টেবিলিটি এবং ইন্টারঅপারেবিলিটি

TFX একাধিক পরিবেশ এবং সহ অর্কেস্ট্রারচনা অবকাঠামো, এর পোর্টেবল ডিজাইন করা হয়েছে এ্যাপাচি Airflow , এ্যাপাচি রশ্মি এবং Kubeflow । এছাড়া অন প্রতিজ্ঞা সহ বিভিন্ন কম্পিউটিং প্ল্যাটফর্ম, এবং মেঘ প্ল্যাটফর্ম যেমন করতে পোর্টেবল Google মেঘ প্ল্যাটফর্ম (GCP) । বিশেষ করে, যেমন মাধ্যমে কিছু পরিচালিত GCP পরিষেবাগুলির সাথে TFX interoperates ক্লাউড এআই প্ল্যাটফর্ম জন্য প্রশিক্ষণ এবং Prediction , এবং ক্লাউড Dataflow বিতরণ ডেটার জন্য এমএল জীবনচক্র বিভিন্ন জন্য অন্যান্য দিক প্রক্রিয়াকরণের।

মডেল বনাম সংরক্ষিত মডেল

মডেল

একটি মডেল হল প্রশিক্ষণ প্রক্রিয়ার আউটপুট। এটি প্রশিক্ষণ প্রক্রিয়ার সময় শেখা ওজনের ক্রমিক রেকর্ড। এই ওজনগুলি পরবর্তীতে নতুন ইনপুট উদাহরণগুলির জন্য ভবিষ্যদ্বাণী গণনা করতে ব্যবহার করা যেতে পারে। TFX এবং TensorFlow-এর জন্য, 'মডেল' সেই বিন্দু পর্যন্ত শেখা ওজন ধারণকারী চেকপয়েন্টকে বোঝায়।

মনে রাখবেন যে 'মডেল' টেনসরফ্লো কম্পিউটেশন গ্রাফের সংজ্ঞাকেও উল্লেখ করতে পারে (যেমন একটি পাইথন ফাইল) যা প্রকাশ করে যে কীভাবে একটি ভবিষ্যদ্বাণী গণনা করা হবে। দুটি ইন্দ্রিয় প্রেক্ষাপটের উপর ভিত্তি করে বিনিময়যোগ্যভাবে ব্যবহার করা যেতে পারে।

সংরক্ষিত মডেল

  • কী এক হয় SavedModel একটি সার্বজনীন, ভাষা-নিরপেক্ষ, সম্পূর্ণভাবে রূদ্ধ, আদায়যোগ্য একটি TensorFlow মডেলের ধারাবাহিকতাতে।
  • কেন এটা গুরুত্বপূর্ণ: এটি উত্পাদন উচ্চতর পর্যায়ের সিস্টেম সক্ষম, রুপান্তর, এবং একটি একক বিমূর্ততা ব্যবহার TensorFlow মডেল ব্যবহার করা হবে।

SavedModel হল একটি TensorFlow মডেলকে প্রোডাকশনে পরিবেশন করার জন্য বা একটি নেটিভ মোবাইল বা জাভাস্ক্রিপ্ট অ্যাপ্লিকেশনের জন্য প্রশিক্ষিত মডেল রপ্তানির জন্য প্রস্তাবিত ক্রমিক বিন্যাস৷ উদাহরণস্বরূপ, ভবিষ্যদ্বাণী করার জন্য একটি মডেলকে একটি REST পরিষেবাতে পরিণত করতে, আপনি মডেলটিকে একটি সংরক্ষিত মডেল হিসাবে সিরিয়ালাইজ করতে পারেন এবং টেনসরফ্লো সার্ভিং ব্যবহার করে এটি পরিবেশন করতে পারেন৷ দেখুন একটি TensorFlow মডেল পরিবেশন করছে আরও তথ্যের জন্য।

স্কিমা

কিছু TFX উপাদান আপনার ইনপুট তথ্য একটি স্কিমা নামক একটি বিবরণ ব্যবহার করুন। স্কিমা একটি দৃষ্টান্ত হল schema.proto । স্কীমাস এক ধরনের হয় প্রোটোকল বাফার , আরো সাধারণভাবে একটি "protobuf" নামে পরিচিত। স্কিমা বৈশিষ্ট্য মানগুলির জন্য ডেটা প্রকারগুলি নির্দিষ্ট করতে পারে, সমস্ত উদাহরণে একটি বৈশিষ্ট্য উপস্থিত থাকতে হবে কিনা, অনুমোদিত মান ব্যাপ্তি এবং অন্যান্য বৈশিষ্ট্য। TensorFlow ডেটা ভ্যালিডেশন (TFDV) ব্যবহার করার একটি সুবিধা হল যে এটি প্রশিক্ষণের ডেটা থেকে প্রকার, বিভাগ এবং রেঞ্জ অনুমান করে স্বয়ংক্রিয়ভাবে একটি স্কিমা তৈরি করবে।

এখানে একটি স্কিমা প্রোটোবাফ থেকে একটি উদ্ধৃতি রয়েছে:

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

নিম্নলিখিত উপাদানগুলি স্কিমা ব্যবহার করে:

  • টেনসরফ্লো ডেটা যাচাইকরণ
  • টেনসরফ্লো ট্রান্সফর্ম

একটি সাধারণ TFX পাইপলাইনে টেনসরফ্লো ডেটা ভ্যালিডেশন একটি স্কিমা তৈরি করে, যা অন্যান্য উপাদানগুলি ব্যবহার করে।

TFX এর সাথে বিকাশ করা হচ্ছে

TFX একটি মেশিন লার্নিং প্রকল্পের প্রতিটি পর্যায়ের জন্য একটি শক্তিশালী প্ল্যাটফর্ম প্রদান করে, আপনার স্থানীয় মেশিনে গবেষণা, পরীক্ষা-নিরীক্ষা এবং বিকাশ থেকে, স্থাপনার মাধ্যমে। এড়ানোর কোড অনুলিপি ক্রম এবং জন্য সম্ভাব্য নিষ্কাশন সালে প্রশিক্ষণ স্কিউ ভজনা / এটা দৃঢ়ভাবে উভয় মডেল প্রশিক্ষণ ও প্রশিক্ষিত মডেলের স্থাপনার জন্য আপনার TFX পাইপলাইন বাস্তবায়ন, এবং ব্যবহার বাঞ্ছনীয় ট্রান্সফর্ম উপাদান যা লিভারেজ TensorFlow ট্রান্সফর্ম উভয় প্রশিক্ষণ ও অনুমান জন্য লাইব্রেরী। এটি করার মাধ্যমে আপনি ধারাবাহিকভাবে একই প্রিপ্রসেসিং এবং বিশ্লেষণ কোড ব্যবহার করবেন, এবং প্রশিক্ষণের জন্য ব্যবহৃত ডেটা এবং উত্পাদনে আপনার প্রশিক্ষিত মডেলগুলিতে খাওয়ানো ডেটার মধ্যে পার্থক্য এড়াবেন, সেইসাথে একবার সেই কোডটি লেখার মাধ্যমে উপকৃত হবেন।

ডেটা এক্সপ্লোরেশন, ভিজ্যুয়ালাইজেশন এবং ক্লিনিং

ডেটা এক্সপ্লোরেশন, ভিজ্যুয়ালাইজেশন এবং ক্লিনিং

TFX পাইপলাইনগুলি সাধারণত একটি দিয়ে শুরু ExampleGen উপাদান, যা এটি tf.Examples যেমন ইনপুট ডেটা এবং বিন্যাস গ্রহণ করে। প্রায়শই এটি প্রশিক্ষণ এবং মূল্যায়ন ডেটাসেটে ডেটা বিভক্ত করার পরে করা হয় যাতে প্রকৃতপক্ষে ExampleGen উপাদানগুলির দুটি কপি থাকে, প্রতিটি প্রশিক্ষণ এবং মূল্যায়নের জন্য। এটি সাধারণত কোনো দ্বারা অনুসরণ করা হয় StatisticsGen উপাদান এবং SchemaGen উপাদান, যা আপনার ডেটা এবং পরীক্ষা একটি ডাটা স্কিমা ও পরিসংখ্যান অনুমান হবে। স্কিমা ও পরিসংখ্যান একটি খায় করা হবে ExampleValidator উপাদান, যা ব্যতিক্রমসমূহ নিখোঁজ মূল্যবোধ, এবং আপনার ডেটা ভুল ধরনের তথ্য জন্য চেহারা হবে। এই উপাদানগুলির সব ক্ষমতার লিভারেজ TensorFlow ডেটা ভ্যালিডেশন গ্রন্থাগার।

TensorFlow ডেটা ভ্যালিডেশন (TFDV) যখন প্রাথমিক অন্বেষণ, কল্পনা করছেন, এবং আপনার ডেটাসেটের পরিষ্কারের একটি মূল্যবান হাতিয়ার। TFDV আপনার ডেটা পরীক্ষা করে এবং ডেটার ধরন, বিভাগ এবং ব্যাপ্তি অনুমান করে এবং তারপর স্বয়ংক্রিয়ভাবে অসামঞ্জস্যতা এবং অনুপস্থিত মান সনাক্ত করতে সহায়তা করে। এটি ভিজ্যুয়ালাইজেশন টুলও প্রদান করে যা আপনাকে আপনার ডেটাসেট পরীক্ষা করতে এবং বুঝতে সাহায্য করতে পারে। আপনার পাইপলাইন সম্পূর্ণ হওয়ার পর আপনার কাছ থেকে মেটাডাটা পড়তে পারেন MLMD এবং Jupyter নোটবুক TFDV কল্পনা সরঞ্জামগুলি ব্যবহার আপনার ডেটা বিশ্লেষণ করতে।

আপনার প্রাথমিক মডেল প্রশিক্ষণ এবং স্থাপনা অনুসরণ করে, TFDV আপনার নিয়োজিত মডেলগুলিতে অনুমান অনুরোধ থেকে নতুন ডেটা নিরীক্ষণ করতে এবং অসামঞ্জস্যতা এবং/অথবা প্রবাহের সন্ধান করতে ব্যবহার করা যেতে পারে। এটি বিশেষ করে টাইম সিরিজ ডেটার জন্য উপযোগী যা সময়ের সাথে সাথে প্রবণতা বা ঋতুগততার ফলে পরিবর্তিত হয় এবং যখন ডেটা সমস্যা হয় বা কখন মডেলগুলিকে নতুন ডেটাতে পুনরায় প্রশিক্ষণ দেওয়া প্রয়োজন তা জানাতে সাহায্য করতে পারে।

ডেটা ভিজ্যুয়ালাইজেশন

TFDV (সাধারণত StatisticsGen, SchemaGen, এবং ExampleValidator) ব্যবহার করে আপনার পাইপলাইনের বিভাগের মাধ্যমে আপনি আপনার ডেটার প্রথম রান সম্পূর্ণ করার পরে আপনি Jupyter শৈলীর নোটবুকে ফলাফলগুলি কল্পনা করতে পারেন। অতিরিক্ত রানের জন্য আপনি সামঞ্জস্য করার সাথে সাথে এই ফলাফলগুলি তুলনা করতে পারেন, যতক্ষণ না আপনার ডেটা আপনার মডেল এবং অ্যাপ্লিকেশনের জন্য সর্বোত্তম হয়।

আপনিই প্রথম প্রশ্ন হবে এমএল মেটাডেটা (MLMD) এই উপাদানগুলির এই মৃত্যুদণ্ড কার্যকর ফলাফল খোজা, এবং তারপর TFDV মধ্যে ঠাহর সমর্থন API ব্যবহার তোমার খাতার মধ্যে দৃশ্য তৈরি করুন। এর মধ্যে রয়েছে tfdv.load_statistics () এবং tfdv.visualize_statistics () এই কল্পনা ব্যবহার করে আপনি ভাল আপনার ডেটা সেটটি বৈশিষ্ট্য বুঝতে পারেন, এবং প্রয়োজনে প্রয়োজনীয় পরিবর্তন করুন।

উন্নয়ন এবং প্রশিক্ষণ মডেল

ফিচার ইঞ্জিনিয়ারিং

একটা প্রচলিত TFX পাইপলাইন একটি অন্তর্ভুক্ত করা হবে ট্রান্সফর্ম উপাদান, যার মধ্যে ক্ষমতা উপজীব্য করে বৈশিষ্ট্য ইঞ্জিনিয়ারিং সঞ্চালন করা হবে TensorFlow ট্রান্সফর্ম (টিএফটি) গ্রন্থাগার। একটি উপাদান হ্রাস একটি SchemaGen উপাদান দ্বারা নির্মিত স্কিমা ট্রান্সফর্ম, এবং প্রযোজ্য ডাটা রূপান্তরের তৈরি একত্রিত করতে এবং আরো নতুন বৈশিষ্ট্যগুলি যে আপনার মডেল প্রশিক্ষণের ব্যবহার করা হবে রুপান্তর। অনুপস্থিত মানগুলি পরিষ্কার করা এবং প্রকারের রূপান্তরও ট্রান্সফর্ম কম্পোনেন্টে করা উচিত যদি কখনও এমন সম্ভাবনা থাকে যে এটি অনুমান অনুরোধের জন্য পাঠানো ডেটাতেও উপস্থিত থাকবে। কিছু গুরুত্বপূর্ণ বিবেচ্য বিষয় আছে যখন TFX মধ্যে প্রশিক্ষণের জন্য TensorFlow কোড নকশা।

মডেলিং এবং প্রশিক্ষণ

একটি উপাদান ট্রান্সফর্ম ফল একটি SavedModel এটি আমদানি করা হবে এবং TensorFlow আপনার মডেলিং কোড ব্যবহৃত একটি সময় হয় প্রশিক্ষক অংশ। এই SavedModel-এ ট্রান্সফর্ম কম্পোনেন্টে তৈরি করা সমস্ত ডেটা ইঞ্জিনিয়ারিং ট্রান্সফর্মেশন অন্তর্ভুক্ত রয়েছে, যাতে ট্রেনিং এবং ইনফরেন্স উভয় সময়েই একই কোড ব্যবহার করে অভিন্ন রূপান্তরগুলি সঞ্চালিত হয়। ট্রান্সফর্ম উপাদান থেকে সংরক্ষিত মডেল সহ মডেলিং কোড ব্যবহার করে, আপনি আপনার প্রশিক্ষণ এবং মূল্যায়ন ডেটা ব্যবহার করতে পারেন এবং আপনার মডেলকে প্রশিক্ষণ দিতে পারেন।

এস্টিমেটর ভিত্তিক মডেলগুলির সাথে কাজ করার সময়, আপনার মডেলিং কোডের শেষ বিভাগটি আপনার মডেলটিকে একটি SavedModel এবং একটি EvalSavedModel হিসাবে সংরক্ষণ করা উচিত৷ একটি EvalSavedModel হিসাবে সংরক্ষণ করা নিশ্চিত করে যে প্রশিক্ষণের সময় ব্যবহৃত মেট্রিকগুলি মূল্যায়নের সময়ও পাওয়া যায় (মনে রাখবেন যে এটি কেরা ভিত্তিক মডেলগুলির জন্য প্রয়োজনীয় নয়)। একটি EvalSavedModel সংরক্ষণ করা হচ্ছে প্রয়োজন যে আপনি আমদানি TensorFlow মডেল বিশ্লেষণ (TFMA) আপনার প্রশিক্ষক উপাদানের গ্রন্থাগার।

import tensorflow_model_analysis as tfma
...

tfma.export.export_eval_savedmodel(
        estimator=estimator,
        export_dir_base=eval_model_dir,
        eval_input_receiver_fn=receiver_fn)

একটি ঐচ্ছিক টিউনার উপাদান প্রশিক্ষক সামনে মডেল জন্য সুর hyperparameters (যেমন, স্তর সংখ্যা) যোগ করা যেতে পারে। প্রদত্ত মডেল এবং হাইপারপ্যারামিটারের অনুসন্ধান স্থানের সাথে, টিউনিং অ্যালগরিদম উদ্দেশ্যের উপর ভিত্তি করে সেরা হাইপারপ্যারামিটারগুলি খুঁজে পাবে।

মডেল কর্মক্ষমতা বিশ্লেষণ এবং বোঝা

মডেল বিশ্লেষণ

প্রাথমিক মডেলের বিকাশ এবং প্রশিক্ষণের পরে আপনার মডেলের কার্যকারিতা বিশ্লেষণ করা এবং সত্যিই বোঝা গুরুত্বপূর্ণ। একটা প্রচলিত TFX পাইপলাইন একটি অন্তর্ভুক্ত করা হবে Evaluator উপাদান, যার মধ্যে ক্ষমতা লিভারেজ TensorFlow মডেল বিশ্লেষণ (TFMA) গ্রন্থাগার, যা উন্নয়নের এই পর্যায়ে জন্য একটি ক্ষমতা টুলসেট প্রদান করে। একটি Evaluator উপাদান মডেল হ্রাস যে আপনার উপরে রপ্তানি, এবং আপনি একটি তালিকা নির্দিষ্ট করার অনুমতি দেয় tfma.SlicingSpec যখন আপনি visualizing এবং আপনার মডেল এর পারফরম্যান্সের বিশ্লেষণ ব্যবহার করতে পারেন। প্রতিটি SlicingSpec যেমন শ্রেণীগত বৈশিষ্ট্য, অথবা সংখ্যাসূচক বৈশিষ্ট্যগুলির জন্য বিশেষ ব্যাপ্তির জন্য বিশেষ বিভাগ হিসেবে আপনার প্রশিক্ষণ ডেটা আছে যা আপনাকে একটু পরীক্ষা করে করতে চাই, একটি ফালি সংজ্ঞায়িত করে।

উদাহরণস্বরূপ, আপনার গ্রাহকদের বিভিন্ন বিভাগের জন্য আপনার মডেলের কর্মক্ষমতা বোঝার চেষ্টা করার জন্য এটি গুরুত্বপূর্ণ হবে, যা বার্ষিক কেনাকাটা, ভৌগলিক ডেটা, বয়স গোষ্ঠী বা লিঙ্গ দ্বারা বিভক্ত করা যেতে পারে। এটি লম্বা লেজ সহ ডেটাসেটের জন্য বিশেষভাবে গুরুত্বপূর্ণ হতে পারে, যেখানে একটি প্রভাবশালী গোষ্ঠীর কার্যকারিতা গুরুত্বপূর্ণ, তবুও ছোট গোষ্ঠীগুলির জন্য অগ্রহণযোগ্য কর্মক্ষমতাকে মুখোশ করতে পারে। উদাহরণস্বরূপ, আপনার মডেল গড় কর্মীদের জন্য ভাল পারফর্ম করতে পারে কিন্তু কার্যনির্বাহী কর্মীদের জন্য খারাপভাবে ব্যর্থ হতে পারে এবং এটি জানা আপনার পক্ষে গুরুত্বপূর্ণ হতে পারে।

মডেল বিশ্লেষণ এবং ভিজ্যুয়ালাইজেশন

আপনি আপনার মডেল প্রশিক্ষণ এবং চলমান মাধ্যমে আপনার ডেটা আপনার প্রথমবার চালনার সম্পন্ন করার পর Evaluator উপাদান (যা লিভারেজ TFMA প্রশিক্ষণ ফলাফলে), আপনি একটি Jupyter শৈলী নোটবুক ফলাফল ঠাহর করতে পারেন। অতিরিক্ত রানের জন্য আপনি সামঞ্জস্য করার সাথে সাথে এই ফলাফলগুলি তুলনা করতে পারেন, যতক্ষণ না আপনার ফলাফলগুলি আপনার মডেল এবং অ্যাপ্লিকেশনের জন্য সর্বোত্তম হয়।

আপনিই প্রথম প্রশ্ন হবে এমএল মেটাডেটা (MLMD) এই উপাদানগুলির এই মৃত্যুদণ্ড কার্যকর ফলাফল খোজা, এবং তারপর TFMA মধ্যে ঠাহর সমর্থন API ব্যবহার তোমার খাতার মধ্যে দৃশ্য তৈরি করুন। এর মধ্যে রয়েছে tfma.load_eval_results এবং tfma.view.render_slicing_metrics এই কল্পনা ব্যবহার করে আপনি ভাল আপনার মডেল বৈশিষ্ট্য বুঝতে পারেন এবং যদি প্রয়োজন পরিবর্তন যেমন প্রয়োজন।

মডেল কর্মক্ষমতা যাচাইকরণ

একটি মডেলের কর্মক্ষমতা বিশ্লেষণের অংশ হিসাবে আপনি একটি বেসলাইনের (যেমন বর্তমানে পরিবেশন করা মডেল) এর বিপরীতে কর্মক্ষমতা যাচাই করতে চাইতে পারেন। মডেল বৈধতা উভয় প্রার্থী এবং বেসলাইন মডেল ক্ষণস্থায়ী দ্বারা সঞ্চালিত হয় Evaluator অংশটি। মূল্যায়নকারী প্রার্থী এবং বেসলাইন উভয়ের জন্য মেট্রিক্স (যেমন AUC, ক্ষতি) গণনা করে এবং ভিন্ন মেট্রিক্সের একটি সংশ্লিষ্ট সেটের সাথে। তারপরে থ্রেশহোল্ডগুলি প্রয়োগ করা যেতে পারে এবং আপনার মডেলগুলিকে উত্পাদনে ঠেলে দেওয়ার জন্য ব্যবহার করা যেতে পারে।

একটি মডেল পরিবেশন করা যেতে পারে তা যাচাই করা

ইনফ্রা বৈধতা

প্রশিক্ষিত মডেল স্থাপন করার আগে, আপনি মডেলটি পরিবেশন পরিকাঠামোতে সত্যিই পরিবেশনযোগ্য কিনা তা যাচাই করতে চাইতে পারেন। নতুন প্রকাশিত মডেল যাতে ভবিষ্যদ্বাণী পরিবেশন করতে সিস্টেমকে বাধা না দেয় তা নিশ্চিত করার জন্য উত্পাদন পরিবেশে এটি বিশেষভাবে গুরুত্বপূর্ণ। InfraValidator উপাদান একটি স্যান্ডবক্সভুক্ত পরিবেশে আপনার মডেল একটি হলদে স্থাপনার করতে, এবং ঐচ্ছিকরূপে যে আপনার মডেল সঠিকভাবে কাজ করে চেক করতে বাস্তব অনুরোধ পাঠাতে হবে।

স্থাপনার লক্ষ্যমাত্রা

একবার আপনি এমন একটি মডেল তৈরি এবং প্রশিক্ষিত করার পরে যা আপনি খুশি, এখন এটি এক বা একাধিক স্থাপনার লক্ষ্য(গুলি) যেখানে এটি অনুমান অনুরোধগুলি পাবে সেখানে স্থাপন করার সময়। TFX তিন শ্রেণীর স্থাপনার লক্ষ্যে স্থাপনা সমর্থন করে। প্রশিক্ষিত মডেলগুলি যেগুলিকে সংরক্ষিত মডেল হিসাবে রপ্তানি করা হয়েছে এই স্থাপনার লক্ষ্যগুলির যে কোনও বা সমস্তটিতে স্থাপন করা যেতে পারে৷

উপাদান প্রবাহ

অনুমান: টেনসরফ্লো সার্ভিং

TensorFlow পরিবেশন করছে (টিএফএস) একটি নমনীয়, উচ্চ ক্ষমতা সম্পন্ন মেশিন মডেল শেখার উৎপাদন পরিবেশের জন্য পরিকল্পিত জন্য সিস্টেম ভজনা করা হয়। এটি একটি সংরক্ষিত মডেল ব্যবহার করে এবং REST বা gRPC ইন্টারফেসের উপর অনুমানের অনুরোধ গ্রহণ করবে। এটি এক বা একাধিক নেটওয়ার্ক সার্ভারে প্রক্রিয়াগুলির একটি সেট হিসাবে সঞ্চালিত হয়, সিঙ্ক্রোনাইজেশন এবং বিতরণ করা গণনা পরিচালনা করতে বেশ কয়েকটি উন্নত আর্কিটেকচারের একটি ব্যবহার করে। দেখুন টিএফএস ডকুমেন্টেশন উন্নয়নশীল এবং টিএফএস সমাধান মোতায়েন সম্পর্কে আরও তথ্যের জন্য।

একটি টিপিক্যাল পাইপলাইন, একটি SavedModel যা প্রশিক্ষণ হয়েছে প্রশিক্ষক উপাদান প্রথম একটি ইন ইনফ্রা-যাচাই করা হবে InfraValidator অংশটি। InfraValidator একটি ক্যানারি TFS মডেল সার্ভার চালু করেছে প্রকৃতপক্ষে SavedModel পরিবেশন করার জন্য। বৈধতা অতিবাহিত হয়েছে, তাহলে একটি বিমানপোত উপাদান পরিশেষে আপনার টিএফএস পরিকাঠামো SavedModel স্থাপন হবে। এর মধ্যে একাধিক সংস্করণ এবং মডেল আপডেটগুলি পরিচালনা করা অন্তর্ভুক্ত।

নেটিভ মোবাইল এবং আইওটি অ্যাপ্লিকেশনে অনুমান: টেনসরফ্লো লাইট

TensorFlow লাইট সরঞ্জাম কোন নেটিভ মোবাইল এবং IOT অ্যাপ্লিকেশন তাদের প্রশিক্ষিত TensorFlow মডেলগুলি ব্যবহার সাহায্যের ডেভেলপারদের নিবেদিত একটি স্যুট হয়। এটি টেনসরফ্লো সার্ভিংয়ের মতো একই সেভড মডেলগুলি ব্যবহার করে এবং মোবাইল এবং আইওটি ডিভাইসে চলার চ্যালেঞ্জগুলির জন্য ফলাফলের মডেলগুলির আকার এবং কার্যকারিতা অপ্টিমাইজ করতে কোয়ান্টাইজেশন এবং ছাঁটাইয়ের মতো অপ্টিমাইজেশন প্রয়োগ করে৷ TensorFlow Lite ব্যবহার করার বিষয়ে আরও তথ্যের জন্য TensorFlow Lite ডকুমেন্টেশন দেখুন।

জাভাস্ক্রিপ্টে অনুমান: টেনসরফ্লো জেএস

TensorFlow জাতীয় ব্রাউজারে এবং Node.js. উপর প্রশিক্ষণ এবং এমএল মডেলের মোতায়েন জন্য একটি JavaScript লাইব্রেরি এটি টেনসরফ্লো সার্ভিং এবং টেনসরফ্লো লাইটের মতো একই সেভড মডেল ব্যবহার করে এবং সেগুলিকে TensorFlow.js ওয়েব ফর্ম্যাটে রূপান্তর করে। TensorFlow JS ব্যবহার করার বিষয়ে আরো বিস্তারিত জানার জন্য TensorFlow JS ডকুমেন্টেশন দেখুন।

এয়ারফ্লো সহ একটি TFX পাইপলাইন তৈরি করা

পরীক্ষা করে দেখুন সুরক্ষা বৃহত্তর কর্মশালার বিস্তারিত জানার জন্য

Kubeflow দিয়ে একটি TFX পাইপলাইন তৈরি করা

সেটআপ

স্কেল এ পাইপলাইন চালানোর জন্য Kubeflow-এর একটি Kubernetes ক্লাস্টার প্রয়োজন। জন্য বিকল্পগুলির মাধ্যমে Kubeflow স্থাপনার গাইডলাইন যে গাইড দেখুন Kubeflow ক্লাস্টার মোতায়েন।

কনফিগার করুন এবং TFX পাইপলাইন চালান

অনুসরণ করুন উপর মেঘ এআই প্ল্যাটফর্ম পাইপলাইন টিউটোরিয়াল TFX Kubeflow উপর TFX উদাহরণ পাইপলাইন চালানোর জন্য। টিএফএক্স উপাদানগুলি কুবেফ্লো পাইপলাইন রচনা করার জন্য কন্টেইনারাইজ করা হয়েছে এবং নমুনাটি বড় পাবলিক ডেটাসেট পড়তে এবং ক্লাউডে স্কেলে প্রশিক্ষণ এবং ডেটা প্রক্রিয়াকরণের পদক্ষেপগুলি চালানোর জন্য পাইপলাইন কনফিগার করার ক্ষমতাকে চিত্রিত করে।

পাইপলাইন কর্মের জন্য কমান্ড লাইন ইন্টারফেস

TFX একটি ইউনিফাইড CLI প্রদান করে যা Apache Airflow, Apache Beam, এবং Kubeflow সহ বিভিন্ন অর্কেস্ট্রেটরের পাইপলাইন তৈরি, আপডেট, চালানো, তালিকা এবং মুছে ফেলার মতো পাইপলাইন অ্যাকশনের সম্পূর্ণ পরিসরে সাহায্য করে। বিস্তারিত জানার জন্য অনুসরণ করুন এই নির্দেশাবলী