TensorFlow Lite-এর জন্য GPU প্রতিনিধি

আপনার মেশিন লার্নিং (ML) মডেলগুলি চালানোর জন্য গ্রাফিক্স প্রসেসিং ইউনিট (GPUs) ব্যবহার করা আপনার মডেলের কর্মক্ষমতা এবং আপনার ML-সক্ষম অ্যাপ্লিকেশনগুলির ব্যবহারকারীর অভিজ্ঞতাকে নাটকীয়ভাবে উন্নত করতে পারে। টেনসরফ্লো লাইট প্রতিনিধি নামক হার্ডওয়্যার ড্রাইভারের মাধ্যমে GPU এবং অন্যান্য বিশেষায়িত প্রসেসর ব্যবহার করতে সক্ষম করে। আপনার TensorFlow Lite ML অ্যাপ্লিকেশানগুলির সাথে GPU গুলির ব্যবহার সক্ষম করা নিম্নলিখিত সুবিধাগুলি প্রদান করতে পারে:

গতি - GPU গুলি ব্যাপক সমান্তরাল কাজের চাপের উচ্চ থ্রুপুটের জন্য তৈরি করা হয়েছে। এই নকশাটি তাদের গভীর নিউরাল নেটগুলির জন্য উপযুক্ত করে তোলে, যার মধ্যে বিপুল সংখ্যক অপারেটর থাকে, প্রতিটি ইনপুট টেনসরে কাজ করে যা সমান্তরালভাবে প্রক্রিয়া করা যেতে পারে, যার ফলে সাধারণত কম লেটেন্সি হয়। সর্বোত্তম পরিস্থিতিতে, একটি GPU-তে আপনার মডেল চালানোর ফলে রিয়েল-টাইম অ্যাপ্লিকেশনগুলি সক্ষম করার জন্য যথেষ্ট দ্রুত চলতে পারে যা আগে সম্ভব ছিল না।
পাওয়ার দক্ষতা - জিপিইউগুলি খুব দক্ষ এবং অপ্টিমাইজড পদ্ধতিতে এমএল গণনা করে, সাধারণত কম শক্তি খরচ করে এবং সিপিইউতে চলমান একই কাজ থেকে কম তাপ উৎপন্ন করে।

এই নথিটি টেনসরফ্লো লাইটে জিপিইউ সমর্থনের একটি ওভারভিউ এবং জিপিইউ প্রসেসরের জন্য কিছু উন্নত ব্যবহার প্রদান করে। নির্দিষ্ট প্ল্যাটফর্মগুলিতে GPU সমর্থন বাস্তবায়ন সম্পর্কে আরও নির্দিষ্ট তথ্যের জন্য, নিম্নলিখিত নির্দেশিকাগুলি দেখুন:

GPU ML অপারেশন সমর্থন

TensorFlow ML ক্রিয়াকলাপ, বা ops , TensorFlow Lite GPU প্রতিনিধি দ্বারা ত্বরান্বিত করা যেতে পারে তার কিছু সীমাবদ্ধতা রয়েছে৷ প্রতিনিধি 16-বিট এবং 32-বিট ফ্লোট নির্ভুলতায় নিম্নলিখিত অপ্স সমর্থন করে:

ADD
AVERAGE_POOL_2D
CONCATENATION
CONV_2D
DEPTHWISE_CONV_2D v1-2
EXP
FULLY_CONNECTED
LOGICAL_AND
LOGISTIC
LSTM v2 (Basic LSTM only)
MAX_POOL_2D
MAXIMUM
MINIMUM
MUL
PAD
PRELU
RELU
RELU6
RESHAPE
RESIZE_BILINEAR v1-3
SOFTMAX
STRIDED_SLICE
SUB
TRANSPOSE_CONV

ডিফল্টরূপে, সমস্ত অপ্স শুধুমাত্র সংস্করণ 1 এ সমর্থিত । কোয়ান্টাইজেশন সমর্থন সক্রিয় করা উপযুক্ত সংস্করণগুলিকে সক্ষম করে, উদাহরণস্বরূপ, ADD v2।

GPU সমর্থন সমস্যা সমাধান করা

যদি কিছু অপ্স GPU প্রতিনিধি দ্বারা সমর্থিত না হয়, ফ্রেমওয়ার্ক শুধুমাত্র GPU-এ গ্রাফের একটি অংশ এবং CPU-তে অবশিষ্ট অংশ চালাবে। সিপিইউ/জিপিইউ সিঙ্ক্রোনাইজেশনের উচ্চ খরচের কারণে, এই ধরনের একটি বিভক্ত এক্সিকিউশন মোড প্রায়শই যখন পুরো নেটওয়ার্কটি শুধুমাত্র সিপিইউতে চালানো হয় তার চেয়ে ধীর কর্মক্ষমতার কারণ হয়। এই ক্ষেত্রে, অ্যাপ্লিকেশন সতর্কতা তৈরি করে, যেমন:

WARNING: op code #42 cannot be handled by this delegate.

এই ধরনের ব্যর্থতার জন্য কোন কলব্যাক নেই, যেহেতু এটি একটি প্রকৃত রান-টাইম ব্যর্থতা নয়। GPU প্রতিনিধির সাথে আপনার মডেলের এক্সিকিউশন পরীক্ষা করার সময়, এই সতর্কতার জন্য আপনাকে সতর্ক থাকতে হবে। এই সতর্কতাগুলির একটি উচ্চ সংখ্যা নির্দেশ করতে পারে যে আপনার মডেলটি GPU ত্বরণের জন্য ব্যবহারের জন্য সবচেয়ে উপযুক্ত নয় এবং মডেলটির রিফ্যাক্টরিং প্রয়োজন হতে পারে।

উদাহরণ মডেল

নিম্নলিখিত উদাহরণ মডেলগুলি টেনসরফ্লো লাইটের সাথে GPU ত্বরণের সুবিধা নেওয়ার জন্য তৈরি করা হয়েছে এবং রেফারেন্স এবং পরীক্ষার জন্য সরবরাহ করা হয়েছে:

MobileNet v1 (224x224) ইমেজ শ্রেণীবিভাগ - মোবাইল এবং এমবেডেড ভিশন ভিত্তিক অ্যাপ্লিকেশনের জন্য ডিজাইন করা একটি ইমেজ শ্রেণীবিভাগ মডেল। ( মডেল )
ডিপল্যাব সেগমেন্টেশন (257x257) - ইমেজ সেগমেন্টেশন মডেল যা ইনপুট ইমেজের প্রতিটি পিক্সেলের জন্য একটি কুকুর, বিড়াল, গাড়ির মতো শব্দার্থিক লেবেলগুলি বরাদ্দ করে৷ ( মডেল )
MobileNet SSD অবজেক্ট ডিটেকশন - একটি ইমেজ ক্লাসিফিকেশন মডেল যা বাউন্ডিং বক্স সহ একাধিক অবজেক্ট সনাক্ত করে। ( মডেল )
পোজ অনুমানের জন্য পোজনেট - একটি দৃষ্টি মডেল যা চিত্র বা ভিডিওতে লোকেদের ভঙ্গি অনুমান করে। ( মডেল )

GPU-এর জন্য অপ্টিমাইজ করা হচ্ছে

TensorFlow Lite GPU প্রতিনিধি ব্যবহার করে GPU হার্ডওয়্যারে মডেলগুলি চালানোর সময় নিম্নলিখিত কৌশলগুলি আপনাকে আরও ভাল পারফরম্যান্স পেতে সাহায্য করতে পারে:

অপারেশন রিশেপ করুন - কিছু অপারেশন যা একটি CPU-তে দ্রুত হয় মোবাইল ডিভাইসে GPU-এর জন্য উচ্চ খরচ হতে পারে। রিশেপ অপারেশনগুলি চালানোর জন্য বিশেষভাবে ব্যয়বহুল, যার মধ্যে BATCH_TO_SPACE , SPACE_TO_BATCH , SPACE_TO_DEPTH , এবং আরও অনেক কিছু রয়েছে৷ আপনার পুনর্নির্মাণ ক্রিয়াকলাপগুলির ব্যবহার ঘনিষ্ঠভাবে পরীক্ষা করা উচিত এবং বিবেচনা করা উচিত যে এটি শুধুমাত্র ডেটা অন্বেষণ বা আপনার মডেলের প্রাথমিক পুনরাবৃত্তির জন্য প্রয়োগ করা হয়েছে। তাদের অপসারণ উল্লেখযোগ্যভাবে কর্মক্ষমতা উন্নত করতে পারে.
ইমেজ ডেটা চ্যানেল - জিপিইউ-তে, টেনসর ডেটা 4-চ্যানেলগুলিতে কাটা হয়, এবং তাই আকৃতি [B,H,W,5] আকৃতির একটি টেনসরের উপর একটি গণনা একটি আকৃতির টেনসরে [B,H,W,8] একই কাজ করে [B,H,W,8] , কিন্তু [B,H,W,4] এর চেয়ে উল্লেখযোগ্যভাবে খারাপ। আপনি যে ক্যামেরা হার্ডওয়্যারটি ব্যবহার করছেন সেটি যদি RGBA-তে ইমেজ ফ্রেম সমর্থন করে, তাহলে 4-চ্যানেল ইনপুট খাওয়ানো উল্লেখযোগ্যভাবে দ্রুত, কারণ এটি 3-চ্যানেল RGB থেকে 4-চ্যানেল RGBX-এ মেমরি কপি এড়িয়ে যায়।
মোবাইল-অপ্টিমাইজ করা মডেল - সেরা পারফরম্যান্সের জন্য, আপনাকে মোবাইল-অপ্টিমাইজ করা নেটওয়ার্ক আর্কিটেকচারের সাথে আপনার ক্লাসিফায়ারকে পুনরায় প্রশিক্ষণ দেওয়ার কথা বিবেচনা করা উচিত। অন-ডিভাইস ইনফারেন্সিংয়ের জন্য অপ্টিমাইজেশন মোবাইল হার্ডওয়্যার বৈশিষ্ট্যগুলির সুবিধা গ্রহণ করে নাটকীয়ভাবে লেটেন্সি এবং পাওয়ার খরচ কমাতে পারে।

উন্নত GPU সমর্থন

কোয়ান্টাইজেশন এবং সিরিয়ালাইজেশন সহ আপনার মডেলগুলির জন্য আরও ভাল পারফরম্যান্স সক্ষম করতে আপনি GPU প্রক্রিয়াকরণের সাথে অতিরিক্ত, উন্নত কৌশলগুলি ব্যবহার করতে পারেন। নিম্নলিখিত বিভাগগুলি এই কৌশলগুলিকে আরও বিশদে বর্ণনা করে।

কোয়ান্টাইজড মডেল ব্যবহার করে

এই বিভাগটি ব্যাখ্যা করে যে কিভাবে GPU প্রতিনিধি নিম্নলিখিতগুলি সহ 8-বিট কোয়ান্টাইজড মডেলগুলিকে ত্বরান্বিত করে:

কোয়ান্টাইজেশন-সচেতন প্রশিক্ষণের মাধ্যমে প্রশিক্ষিত মডেল
পোস্ট-ট্রেনিং ডাইনামিক-রেঞ্জ কোয়ান্টাইজেশন
প্রশিক্ষণ-পরবর্তী পূর্ণ পূর্ণসংখ্যা পরিমাপ

কর্মক্ষমতা অপ্টিমাইজ করতে, ফ্লোটিং-পয়েন্ট ইনপুট এবং আউটপুট টেনসর উভয়ই রয়েছে এমন মডেলগুলি ব্যবহার করুন৷

কিভাবে কাজ করে?

যেহেতু GPU ব্যাকএন্ড শুধুমাত্র ফ্লোটিং-পয়েন্ট এক্সিকিউশনকে সমর্থন করে, তাই আমরা মূল মডেলের 'ফ্লোটিং-পয়েন্ট ভিউ' দিয়ে কোয়ান্টাইজড মডেল চালাই। উচ্চ-স্তরে, এটি নিম্নলিখিত পদক্ষেপগুলিকে অন্তর্ভুক্ত করে:

ধ্রুবক টেনসর (যেমন ওজন/পক্ষপাত) GPU মেমরিতে একবার ডি-কোয়ান্টাইজ করা হয়। TensorFlow Lite-এর জন্য প্রতিনিধি সক্ষম হলে এই অপারেশনটি ঘটে।
GPU প্রোগ্রামে ইনপুট এবং আউটপুট , যদি 8-বিট কোয়ান্টাইজ করা হয়, প্রতিটি অনুমানের জন্য ডি-কোয়ান্টাইজড এবং কোয়ান্টাইজ করা হয় (যথাক্রমে)। এই অপারেশনটি CPU-তে TensorFlow Lite-এর অপ্টিমাইজ করা কার্নেল ব্যবহার করে করা হয়।
কোয়ান্টাইজেশন সিমুলেটরগুলি কোয়ান্টাইজড আচরণ অনুকরণ করার জন্য অপারেশনগুলির মধ্যে সন্নিবেশ করা হয়। এই পদ্ধতিটি মডেলগুলির জন্য প্রয়োজনীয় যেখানে অপস আশা করে অ্যাক্টিভেশনগুলি কোয়ান্টাইজেশনের সময় শেখা সীমা অনুসরণ করবে।

GPU প্রতিনিধির সাথে এই বৈশিষ্ট্যটি সক্ষম করার বিষয়ে তথ্যের জন্য, নিম্নলিখিতগুলি দেখুন:

অ্যান্ড্রয়েডে জিপিইউ সহ কোয়ান্টাইজড মডেল ব্যবহার করা
iOS এ GPU সহ কোয়ান্টাইজড মডেল ব্যবহার করা

সিরিয়ালাইজেশন সহ প্রারম্ভিক সময় হ্রাস করা

GPU প্রতিনিধি বৈশিষ্ট্যটি আপনাকে পূর্ব-সংকলিত কার্নেল কোড থেকে লোড করার অনুমতি দেয় এবং পূর্ববর্তী রান থেকে ডিস্কে ক্রমিককৃত এবং সংরক্ষিত মডেল ডেটা। এই পদ্ধতিটি পুনরায় সংকলন এড়ায় এবং 90% পর্যন্ত স্টার্টআপের সময় কমাতে পারে। সময় সাশ্রয়ের জন্য ডিস্কের স্থান বিনিময় করে এই উন্নতি সাধিত হয়। আপনি কয়েকটি কনফিগারেশন বিকল্পের সাথে এই বৈশিষ্ট্যটি সক্ষম করতে পারেন, যেমনটি নিম্নলিখিত কোড উদাহরণগুলিতে দেখানো হয়েছে:

সি++

    TfLiteGpuDelegateOptionsV2 options = TfLiteGpuDelegateOptionsV2Default();
    options.experimental_flags |= TFLITE_GPU_EXPERIMENTAL_FLAGS_ENABLE_SERIALIZATION;
    options.serialization_dir = kTmpDir;
    options.model_token = kModelToken;

    auto* delegate = TfLiteGpuDelegateV2Create(options);
    if (interpreter->ModifyGraphWithDelegate(delegate) != kTfLiteOk) return false;

জাভা

    GpuDelegate delegate = new GpuDelegate(
      new GpuDelegate.Options().setSerializationParams(
        /* serializationDir= */ serializationDir,
        /* modelToken= */ modelToken));

    Interpreter.Options options = (new Interpreter.Options()).addDelegate(delegate);

সিরিয়ালাইজেশন বৈশিষ্ট্য ব্যবহার করার সময়, নিশ্চিত করুন যে আপনার কোড এই বাস্তবায়নের নিয়মগুলি মেনে চলছে:

সিরিয়ালাইজেশন ডেটা এমন একটি ডিরেক্টরিতে সংরক্ষণ করুন যা অন্য অ্যাপগুলিতে অ্যাক্সেসযোগ্য নয়। অ্যান্ড্রয়েড ডিভাইসে, getCodeCacheDir() ব্যবহার করুন যা বর্তমান অ্যাপ্লিকেশনের জন্য ব্যক্তিগত এমন একটি অবস্থান নির্দেশ করে।
মডেল টোকেন নির্দিষ্ট মডেলের জন্য ডিভাইসের জন্য অনন্য হতে হবে। আপনি farmhash::Fingerprint64 এর মতো লাইব্রেরি ব্যবহার করে মডেল ডেটা থেকে একটি ফিঙ্গারপ্রিন্ট তৈরি করে একটি মডেল টোকেন গণনা করতে পারেন।