মনোযোগ: TensorFlow Lite এখন Google AI Edge-এর অংশ। সর্বশেষ ডকুমেন্টেশন এখন ai.google.dev/edge/lite- এ রয়েছে। আরও জানুন

এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

মডেল অপ্টিমাইজেশান

এজ ডিভাইসে প্রায়ই সীমিত মেমরি বা গণনা শক্তি থাকে। মডেলগুলিতে বিভিন্ন অপ্টিমাইজেশন প্রয়োগ করা যেতে পারে যাতে সেগুলি এই সীমাবদ্ধতার মধ্যে চালানো যায়। উপরন্তু, কিছু অপ্টিমাইজেশন ত্বরিত অনুমানের জন্য বিশেষ হার্ডওয়্যার ব্যবহারের অনুমতি দেয়।

TensorFlow Lite এবং TensorFlow মডেল অপ্টিমাইজেশান টুলকিট অপ্টিমাইজ করা অনুমানের জটিলতা কমানোর জন্য টুল প্রদান করে।

এটি সুপারিশ করা হয় যে আপনি আপনার অ্যাপ্লিকেশন বিকাশ প্রক্রিয়া চলাকালীন মডেল অপ্টিমাইজেশান বিবেচনা করুন৷ এই নথিটি প্রান্ত হার্ডওয়্যারে স্থাপনার জন্য TensorFlow মডেলগুলিকে অপ্টিমাইজ করার জন্য কিছু সেরা অনুশীলনের রূপরেখা দেয়৷

কেন মডেল অপ্টিমাইজ করা উচিত

মডেল অপ্টিমাইজেশন অ্যাপ্লিকেশন বিকাশে সাহায্য করতে পারে এমন কয়েকটি প্রধান উপায় রয়েছে।

আকার হ্রাস

অপ্টিমাইজেশনের কিছু ফর্ম একটি মডেলের আকার কমাতে ব্যবহার করা যেতে পারে। ছোট মডেলের নিম্নলিখিত সুবিধা রয়েছে:

ছোট সঞ্চয়স্থানের আকার: ছোট মডেলগুলি আপনার ব্যবহারকারীদের ডিভাইসে কম সঞ্চয়স্থান দখল করে। উদাহরণস্বরূপ, একটি ছোট মডেল ব্যবহার করে একটি অ্যান্ড্রয়েড অ্যাপ ব্যবহারকারীর মোবাইল ডিভাইসে কম স্টোরেজ স্পেস নেবে।
ডাউনলোডের আকার ছোট: ছোট মডেলের ব্যবহারকারীদের ডিভাইসে ডাউনলোড করতে কম সময় এবং ব্যান্ডউইথের প্রয়োজন হয়।
কম মেমরি ব্যবহার: ছোট মডেলগুলি চালানোর সময় কম RAM ব্যবহার করে, যা আপনার অ্যাপ্লিকেশনের অন্যান্য অংশগুলি ব্যবহারের জন্য মেমরিকে মুক্ত করে এবং আরও ভাল কার্যক্ষমতা এবং স্থিতিশীলতার জন্য অনুবাদ করতে পারে।

কোয়ান্টাইজেশন এই সমস্ত ক্ষেত্রে একটি মডেলের আকার কমাতে পারে, সম্ভাব্য কিছু নির্ভুলতার খরচে। ছাঁটাই এবং ক্লাস্টারিং এটিকে আরও সহজে সংকোচনযোগ্য করে ডাউনলোডের জন্য একটি মডেলের আকার কমাতে পারে।

বিলম্বতা হ্রাস

লেটেন্সি হল প্রদত্ত মডেলের সাথে একটি একক অনুমান চালাতে যে পরিমাণ সময় লাগে। অপ্টিমাইজেশনের কিছু ফর্ম একটি মডেল ব্যবহার করে অনুমান চালানোর জন্য প্রয়োজনীয় গণনার পরিমাণ কমাতে পারে, যার ফলে কম বিলম্ব হয়। লেটেন্সি পাওয়ার খরচের উপরও প্রভাব ফেলতে পারে।

বর্তমানে, কিছু নির্ভুলতার খরচে সম্ভাব্যভাবে অনুমানের সময় ঘটে যাওয়া গণনাগুলিকে সরলীকরণ করে স্থিরতা কমাতে কোয়ান্টাইজেশন ব্যবহার করা যেতে পারে।

অ্যাক্সিলারেটর সামঞ্জস্য

কিছু হার্ডওয়্যার এক্সিলারেটর, যেমন এজ TPU , সঠিকভাবে অপ্টিমাইজ করা মডেলগুলির সাথে অনুমান অত্যন্ত দ্রুত চালাতে পারে।

সাধারণত, এই ধরনের ডিভাইসগুলির জন্য মডেলগুলিকে একটি নির্দিষ্ট উপায়ে পরিমাপ করা প্রয়োজন। তাদের প্রয়োজনীয়তা সম্পর্কে আরও জানতে প্রতিটি হার্ডওয়্যার অ্যাক্সিলারেটরের ডকুমেন্টেশন দেখুন।

ট্রেড-অফ

অপ্টিমাইজেশনের ফলে মডেলের নির্ভুলতার পরিবর্তন হতে পারে, যা অ্যাপ্লিকেশন বিকাশ প্রক্রিয়ার সময় অবশ্যই বিবেচনা করা উচিত।

নির্ভুলতা পরিবর্তনগুলি অপ্টিমাইজ করা পৃথক মডেলের উপর নির্ভর করে এবং সময়ের আগে ভবিষ্যদ্বাণী করা কঠিন। সাধারণত, আকার বা বিলম্বের জন্য অপ্টিমাইজ করা মডেলগুলি অল্প পরিমাণ নির্ভুলতা হারাবে। আপনার আবেদনের উপর নির্ভর করে, এটি আপনার ব্যবহারকারীদের অভিজ্ঞতাকে প্রভাবিত করতে পারে বা নাও করতে পারে। বিরল ক্ষেত্রে, কিছু মডেল অপ্টিমাইজেশন প্রক্রিয়ার ফলে কিছু নির্ভুলতা অর্জন করতে পারে।

অপ্টিমাইজেশনের ধরন

TensorFlow Lite বর্তমানে কোয়ান্টাইজেশন, ছাঁটাই এবং ক্লাস্টারিংয়ের মাধ্যমে অপ্টিমাইজেশন সমর্থন করে।

এগুলি TensorFlow মডেল অপ্টিমাইজেশান টুলকিটের অংশ, যা টেনসরফ্লো লাইটের সাথে সামঞ্জস্যপূর্ণ মডেল অপ্টিমাইজেশান কৌশলগুলির জন্য সংস্থান সরবরাহ করে৷

কোয়ান্টাইজেশন

কোয়ান্টাইজেশন একটি মডেলের পরামিতিগুলিকে উপস্থাপন করতে ব্যবহৃত সংখ্যাগুলির নির্ভুলতা হ্রাস করে কাজ করে, যা ডিফল্টভাবে 32-বিট ফ্লোটিং পয়েন্ট সংখ্যা। এটি একটি ছোট মডেল আকার এবং দ্রুত গণনা ফলাফল.

TensorFlow Lite-এ নিম্নলিখিত ধরনের কোয়ান্টাইজেশন পাওয়া যায়:

প্রযুক্তি	ডেটা প্রয়োজনীয়তা	আকার হ্রাস	সঠিকতা	সমর্থিত হার্ডওয়্যার
পোস্ট-ট্রেনিং float16 কোয়ান্টাইজেশন	কোন তথ্য নেই	50 পর্যন্ত%	নগণ্য নির্ভুলতা ক্ষতি	সিপিইউ, জিপিইউ
প্রশিক্ষণ পরবর্তী গতিশীল পরিসীমা পরিমাপ	কোন তথ্য নেই	75% পর্যন্ত	ক্ষুদ্রতম নির্ভুলতা ক্ষতি	CPU, GPU (Android)
প্রশিক্ষণ-পরবর্তী পূর্ণসংখ্যা পরিমাপ	লেবেলবিহীন প্রতিনিধি নমুনা	75% পর্যন্ত	ছোট নির্ভুলতা ক্ষতি	CPU, GPU (Android), EdgeTPU, Hexagon DSP
পরিমাপ-সচেতন প্রশিক্ষণ	লেবেলযুক্ত প্রশিক্ষণ ডেটা	75% পর্যন্ত	ক্ষুদ্রতম নির্ভুলতা ক্ষতি	CPU, GPU (Android), EdgeTPU, Hexagon DSP

নিম্নলিখিত সিদ্ধান্ত ট্রি আপনাকে আপনার মডেলের জন্য ব্যবহার করতে চান এমন কোয়ান্টাইজেশন স্কিমগুলি নির্বাচন করতে সাহায্য করে, শুধুমাত্র প্রত্যাশিত মডেলের আকার এবং নির্ভুলতার উপর ভিত্তি করে।

পরিমাপ-সিদ্ধান্ত-বৃক্ষ

নীচে কয়েকটি মডেলের প্রশিক্ষণ-পরবর্তী কোয়ান্টাইজেশন এবং কোয়ান্টাইজেশন-সচেতন প্রশিক্ষণের জন্য বিলম্বিততা এবং নির্ভুলতার ফলাফল রয়েছে। সমস্ত লেটেন্সি নম্বর একটি একক বড় কোর CPU ব্যবহার করে Pixel 2 ডিভাইসে পরিমাপ করা হয়। টুলকিট উন্নত হওয়ার সাথে সাথে এখানে সংখ্যাগুলিও হবে:

মডেল	শীর্ষ-১ নির্ভুলতা (মূল)	টপ-১ নির্ভুলতা (প্রশিক্ষণের পরে কোয়ান্টাইজড)	শীর্ষ-১ নির্ভুলতা (কোয়ান্টাইজেশন সচেতন প্রশিক্ষণ)	লেটেন্সি (আসল) (মিসে)	লেটেন্সি (পোস্ট ট্রেনিং কোয়ান্টাইজড) (মিসে)	লেটেন্সি (কোয়ান্টাইজেশন সচেতন প্রশিক্ষণ) (মিসে)	আকার (মূল) (MB)	আকার (অপ্টিমাইজ করা) (MB)
Mobilenet-v1-1-224	0.709	0.657	0.70	124	112	64	16.9	4.3
Mobilenet-v2-1-224	0.719	0.637	0.709	৮৯	98	54	14	3.6
ইনসেপশন_v3	0.78	0.772	0.775	1130	845	543	95.7	23.9
Resnet_v2_101	0.770	0.768	N/A	3973	2868	N/A	178.3	44.9

সারণী 1 সিএনএন মডেলের জন্য মডেল কোয়ান্টাইজেশনের সুবিধা

int16 অ্যাক্টিভেশন এবং int8 ওজন সহ সম্পূর্ণ পূর্ণসংখ্যার পরিমাপ

int16 অ্যাক্টিভেশন সহ কোয়ান্টাইজেশন হল int16-এ অ্যাক্টিভেশন এবং int8-এ ওজন সহ একটি সম্পূর্ণ পূর্ণসংখ্যার কোয়ান্টাইজেশন স্কিম। এই মোডটি একই মডেলের আকার রেখে int8-এ সক্রিয়করণ এবং ওজন উভয়ের সাথে সম্পূর্ণ পূর্ণসংখ্যা পরিমাপকরণ স্কিমের তুলনায় কোয়ান্টাইজড মডেলের নির্ভুলতা উন্নত করতে পারে। যখন অ্যাক্টিভেশনগুলি পরিমাপের প্রতি সংবেদনশীল হয় তখন এটি সুপারিশ করা হয়।

দ্রষ্টব্য: বর্তমানে শুধুমাত্র অ-অপ্টিমাইজ করা রেফারেন্স কার্নেল বাস্তবায়ন এই কোয়ান্টাইজেশন স্কিমের জন্য TFLite-এ উপলব্ধ, তাই ডিফল্টরূপে কর্মক্ষমতা int8 কার্নেলের তুলনায় ধীর হবে। এই মোডের সম্পূর্ণ সুবিধাগুলি বর্তমানে বিশেষ হার্ডওয়্যার বা কাস্টম সফ্টওয়্যারের মাধ্যমে অ্যাক্সেস করা যেতে পারে।

নীচে এই মোড থেকে উপকৃত কিছু মডেলের নির্ভুলতা ফলাফল রয়েছে৷

মডেল	নির্ভুলতা মেট্রিক প্রকার	নির্ভুলতা (float32 সক্রিয়করণ)	নির্ভুলতা (int8 সক্রিয়করণ)	নির্ভুলতা (int16 সক্রিয়করণ)
Wav2letter	আমরা	6.7%	7.7%	7.2%
ডিপ স্পিচ 0.5.1 (আনরোল করা)	সিইআর	6.13%	43.67%	6.52%
YoloV3	mAP(IOU=0.5)	0.577	0.563	0.574
MobileNetV1	শীর্ষ-1 যথার্থতা	0.7062	0.694	0.6936
MobileNetV2	শীর্ষ-1 যথার্থতা	0.718	0.7126	0.7137
মোবাইলবার্ট	F1 (সঠিক মিল)	88.81(81.23)	2.08(0)	88.73(81.15)

সারণি 2 int16 অ্যাক্টিভেশন সহ মডেল কোয়ান্টাইজেশনের সুবিধা

ছাঁটাই

ছাঁটাই একটি মডেলের মধ্যে পরামিতিগুলিকে সরিয়ে দিয়ে কাজ করে যার ভবিষ্যদ্বাণীতে সামান্য প্রভাব পড়ে। ছাঁটাই করা মডেলগুলি ডিস্কে একই আকারের হয় এবং একই রানটাইম লেটেন্সি থাকে, তবে আরও কার্যকরভাবে সংকুচিত করা যায়। এটি মডেল ডাউনলোডের আকার হ্রাস করার জন্য ছাঁটাইকে একটি দরকারী কৌশল করে তোলে।

ভবিষ্যতে, TensorFlow Lite ছাঁটাই করা মডেলগুলির জন্য লেটেন্সি হ্রাস প্রদান করবে।

ক্লাস্টারিং

ক্লাস্টারিং একটি মডেলের প্রতিটি স্তরের ওজনকে একটি পূর্বনির্ধারিত সংখ্যক ক্লাস্টারে গোষ্ঠীবদ্ধ করে কাজ করে, তারপর প্রতিটি পৃথক ক্লাস্টারের অন্তর্গত ওজনের জন্য সেন্ট্রোয়েড মানগুলি ভাগ করে। এটি একটি মডেলে অনন্য ওজনের মানের সংখ্যা হ্রাস করে, এইভাবে এর জটিলতা হ্রাস করে।

ফলস্বরূপ, ক্লাস্টারযুক্ত মডেলগুলিকে আরও কার্যকরভাবে সংকুচিত করা যেতে পারে, ছাঁটাইয়ের মতো স্থাপনার সুবিধা প্রদান করে।

উন্নয়ন কর্মপ্রবাহ

একটি প্রারম্ভিক বিন্দু হিসাবে, হোস্ট করা মডেলগুলির মডেলগুলি আপনার অ্যাপ্লিকেশনের জন্য কাজ করতে পারে কিনা তা পরীক্ষা করুন৷ যদি তা না হয়, আমরা সুপারিশ করি যে ব্যবহারকারীরা প্রশিক্ষণ-পরবর্তী কোয়ান্টাইজেশন টুল দিয়ে শুরু করুন কারণ এটি ব্যাপকভাবে প্রযোজ্য এবং প্রশিক্ষণের ডেটার প্রয়োজন নেই।

যে ক্ষেত্রে নির্ভুলতা এবং লেটেন্সি লক্ষ্য পূরণ হয় না, বা হার্ডওয়্যার অ্যাক্সিলারেটর সমর্থন গুরুত্বপূর্ণ, কোয়ান্টাইজেশন-সচেতন প্রশিক্ষণ হল ভাল বিকল্প। TensorFlow মডেল অপ্টিমাইজেশান টুলকিটের অধীনে অতিরিক্ত অপ্টিমাইজেশান কৌশল দেখুন।

আপনি যদি আপনার মডেলের আকার আরও কমাতে চান, আপনি আপনার মডেলের পরিমাণ নির্ধারণ করার আগে ছাঁটাই এবং/অথবা ক্লাস্টার করার চেষ্টা করতে পারেন।