সাহায্য Kaggle উপর TensorFlow সঙ্গে গ্রেট বেরিয়ার রিফ রক্ষা চ্যালেঞ্জ যোগদান

অডিও শ্রেণিবিন্যাস

কোন অডিও প্রতিনিধিত্ব করে তা সনাক্ত করার কাজটিকে অডিও শ্রেণিবিন্যাস বলা হয়। একটি অডিও শ্রেণিবদ্ধকরণ মডেল বিভিন্ন অডিও ইভেন্টগুলি সনাক্ত করতে প্রশিক্ষিত হয়। উদাহরণস্বরূপ, আপনি তিনটি পৃথক ইভেন্টের প্রতিনিধিত্বকারী ইভেন্টগুলি সনাক্ত করতে একটি মডেলকে প্রশিক্ষণ দিতে পারেন: তালি দেওয়া, আঙুল ছড়িয়ে দেওয়া এবং টাইপ করা, টেনসরফ্লো লাইট অপ্টিমাইজড প্রাক-প্রশিক্ষিত মডেলগুলি সরবরাহ করে যা আপনি আপনার মোবাইল অ্যাপ্লিকেশনগুলিতে স্থাপন করতে পারেন। TensorFlow ব্যবহার অডিও শ্রেণীবিন্যাস সম্পর্কে আরো জানুন এখানে

নিম্নলিখিত চিত্রটি অ্যান্ড্রয়েডে অডিও শ্রেণিবদ্ধকরণ মডেলের আউটপুট দেখায়।

অ্যান্ড্রয়েড উদাহরণের স্ক্রিনশট

এবার শুরু করা যাক

আপনি যদি টেনসরফ্লো লাইটে নতুন হন এবং অ্যান্ড্রয়েডের সাথে কাজ করছেন তবে আমরা নীচের উদাহরণগুলির অ্যাপ্লিকেশনগুলি অন্বেষণ করার পরামর্শ দিচ্ছি যা আপনাকে শুরু করতে সহায়তা করতে পারে।

আপনি কোডের কয়েকটি লাইনে অডিও শ্রেণিবদ্ধকরণ মডেলগুলিকে একীভূত করতে টেনসরফ্লো লাইট টাস্ক লাইব্রেরি থেকে আউট-অফ-বক্স এপিআই লাভ করতে পারেন। টেনসরফ্লো লাইট সাপোর্ট লাইব্রেরি ব্যবহার করে আপনি নিজস্ব কাস্টম ইনফারেন্স পাইপলাইনও তৈরি করতে পারেন।

নীচের অ্যান্ড্রয়েড উদাহরণ টিএফলাইট টাস্ক লাইব্রেরি ব্যবহার করে বাস্তবায়নটি দেখায়

অ্যান্ড্রয়েড উদাহরণ দেখুন

আইওএস উদাহরণ দেখুন

যদি আপনি অ্যান্ড্রয়েড / আইওএস ব্যতীত অন্য কোনও প্ল্যাটফর্ম ব্যবহার করছেন বা আপনি যদি টেনসরফ্লো লাইট এপিআইয়ের সাথে ইতিমধ্যে পরিচিত হন তবে স্টার্টার মডেল এবং সমর্থনকারী ফাইলগুলি ডাউনলোড করুন (যদি প্রযোজ্য হয়)।

টেনসরফ্লো হাব থেকে স্টার্টার মডেলটি ডাউনলোড করুন

মডেল বর্ণনা

ইয়ামনেট হ'ল একটি অডিও ইভেন্ট শ্রেণিবদ্ধকারী যা অডিও তরঙ্গরূপটিকে ইনপুট হিসাবে গ্রহণ করে এবং অডিওসেট অ্যান্টোলজি থেকে 521 অডিও ইভেন্টের প্রত্যেকটির জন্য স্বতন্ত্র পূর্বাভাস দেয়। মডেলটি মোবাইল নেট ভি 1 আর্কিটেকচার ব্যবহার করে এবং অডিওসেট কর্পাস ব্যবহার করে প্রশিক্ষিত হয়েছিল। এই মডেলটি মূলত টেনসরফ্লো মডেল গার্ডেনে প্রকাশিত হয়েছিল, যেখানে মডেল উত্স কোড, মূল মডেল চেকপয়েন্ট এবং আরও বিস্তারিত ডকুমেন্টেশন রয়েছে।

কিভাবে এটা কাজ করে

টিএফলাইটে রূপান্তরিত YAMNet মডেলের দুটি সংস্করণ রয়েছে:

  • YAMNet হ'ল অডিও শ্রেণিবদ্ধকরণ মডেল, গতিশীল ইনপুট আকার সহ, ট্রান্সফার লার্নিং, ওয়েব এবং মোবাইল স্থাপনার জন্য উপযুক্ত। এটির আরও জটিল আউটপুট রয়েছে।

  • YAMNet / শ্রেণিবিন্যাস একটি সহজ ফিক্সড দৈর্ঘ্য ফ্রেম ইনপুট (15600 নমুনা) সহ একটি কোয়ান্টাইজড সংস্করণ এবং 521 অডিও ইভেন্ট ক্লাসের জন্য স্কোরগুলির একক ভেক্টরকে ফেরত দেয়।

ইনপুটস

মডেলটি 1-ডি float32 টেন্সর বা 15600 দৈর্ঘ্যের float32 অ্যারে গ্রহণ করে যেখানে একটি 0.975 সেকেন্ড ওয়েভফর্ম রয়েছে যা [-1.0, +1.0] পরিসরে মনো-16 কেএইচজেড নমুনা হিসাবে উপস্থাপন করেছে

আউটপুটস

মডেলটি float32 দ্বারা সমর্থিত অডিওসেট অ্যান্টোলজিতে 521 শ্রেণীর প্রত্যেকটির জন্য পূর্বাভাসিত স্কোর সমন্বিত আকারের একটি 2-ডি float32 টেন্সর (1, 521) প্রদান করে। স্কোর টেনসরের কলাম সূচক (0-520) ইয়ামনেট ক্লাস মানচিত্র ব্যবহার করে সংশ্লিষ্ট অডিওসেট শ্রেণীর নামের সাথে ম্যাপ করা হয়েছে, যা মডেল ফাইলে সংযুক্ত ফাইল yamnet_label_list.txt হিসাবে উপলব্ধ। ব্যবহারের জন্য নীচে দেখুন।

উপযুক্ত ব্যবহার

YAMNet ব্যবহার করা যেতে পারে

  • অবিচ্ছিন্ন অডিও ইভেন্ট শ্রেণিবদ্ধকারী হিসাবে যা বিভিন্ন অডিও ইভেন্ট জুড়ে যুক্তিসঙ্গত বেসলাইন সরবরাহ করে।
  • উচ্চ-স্তরের বৈশিষ্ট্য নিষ্কর্ষক হিসাবে: YAMNet এর 1024-D এম্বেডিং আউটপুট অন্য মডেলের ইনপুট বৈশিষ্ট্য হিসাবে ব্যবহার করা যেতে পারে যা কোনও নির্দিষ্ট কাজের জন্য অল্প পরিমাণে ডেটাতে প্রশিক্ষণ দেওয়া যেতে পারে। এটি প্রচুর লেবেলযুক্ত ডেটার প্রয়োজন ছাড়াই এবং বড় কোনও মডেলকে শেষ থেকে শেষ পর্যন্ত প্রশিক্ষণ না দিয়ে দ্রুত বিশেষায়িত অডিও শ্রেণিবদ্ধকারী তৈরি করার অনুমতি দেয়।
  • একটি উষ্ণ সূচনা হিসাবে: YAMNet মডেল পরামিতিগুলি বৃহত্তর মডেলের অংশ সূচনা করতে ব্যবহার করা যেতে পারে যা দ্রুত সূক্ষ্ম সুরকরণ এবং মডেল অনুসন্ধানের অনুমতি দেয়।

সীমাবদ্ধতা

  • YAMNet এর শ্রেণিবদ্ধ আউটপুটগুলি ক্লাস জুড়ে ক্রমাঙ্কিত করা হয়নি, সুতরাং আপনি আউটপুটগুলি সরাসরি সম্ভাবনার হিসাবে বিবেচনা করতে পারবেন না। কোনও প্রদত্ত টাস্কের জন্য আপনাকে খুব সম্ভবত টাস্ক-নির্দিষ্ট ডেটা দিয়ে একটি ক্রমাঙ্কন সম্পাদন করতে হবে যা আপনাকে যথাসময়ে প্রতি শ্রেণীর স্কোর থ্রেশহোল্ড এবং স্কেলিং নির্ধারণ করতে দেয়।
  • YAMNet লক্ষ লক্ষ ইউটিউব ভিডিওগুলিতে প্রশিক্ষণ পেয়েছে এবং যদিও এগুলি খুব বৈচিত্র্যময়, এখনও কোনও ইউটিউব ভিডিও এবং প্রদত্ত কোনও কাজের জন্য প্রত্যাশিত অডিও ইনপুটগুলির মধ্যে একটি ডোমেন মিল থাকতে পারে না। আপনার নির্মিত যে কোনও সিস্টেমে ওয়াইমনেটকে ব্যবহারযোগ্য করে তোলার জন্য আপনার কিছু পরিমাণ জরিমানা-সুরকরণ এবং ক্রমাঙ্কন করার আশা করা উচিত।

মডেল কাস্টমাইজেশন

প্রদত্ত প্রাক প্রশিক্ষিত মডেলগুলি 521 টি বিভিন্ন অডিও ক্লাস সনাক্ত করতে প্রশিক্ষিত হয় are ক্লাসগুলির সম্পূর্ণ তালিকার জন্য, মডেল সংগ্রহস্থলে লেবেল ফাইলটি দেখুন।

মূল সেটটিতে নয় ক্লাসগুলি সনাক্ত করতে কোনও মডেলকে পুনরায় প্রশিক্ষণের জন্য আপনি ট্রান্সফার লার্নিং নামে পরিচিত একটি প্রযুক্তি ব্যবহার করতে পারেন। উদাহরণস্বরূপ, আপনি একাধিক পাখির গান সনাক্ত করতে মডেলটিকে পুনরায় প্রশিক্ষণ দিতে পারেন। এটি করার জন্য, আপনি প্রশিক্ষণ নিতে চান এমন প্রতিটি নতুন লেবেলের জন্য আপনার প্রশিক্ষণের অডিওগুলির একটি সেট প্রয়োজন হবে। প্রস্তাবিত উপায় হ'ল টেনসরফ্লো লাইট মডেল মেকার লাইব্রেরিটি ব্যবহার করুন যা কয়েকটি টেস্টের কোডগুলিতে কাস্টম ডেটাসেট ব্যবহার করে টেনসরফ্লো লাইট মডেল প্রশিক্ষণের প্রক্রিয়াটিকে সহজতর করে। এটি প্রয়োজনীয় প্রশিক্ষণের ডেটা এবং সময়ের পরিমাণ হ্রাস করতে ট্রান্সফার লার্নিং ব্যবহার করে। স্থানান্তর শিক্ষার উদাহরণ হিসাবে আপনি অডিও স্বীকৃতির জন্য স্থানান্তর শেখা থেকেও শিখতে পারেন।

আরও পড়া এবং সংস্থান

অডিও শ্রেণিবিন্যাস সম্পর্কিত ধারণাগুলি সম্পর্কে আরও জানতে নিম্নলিখিত সংস্থানগুলি ব্যবহার করুন: