সাহায্য Kaggle উপর TensorFlow সঙ্গে গ্রেট বেরিয়ার রিফ রক্ষা চ্যালেঞ্জ যোগদান

শক্তিবৃদ্ধি শেখা

কোনও এজেন্টের বিরুদ্ধে বোর্ড গেম খেলুন, যা রিইনফোর্সমেন্ট লার্নিং ব্যবহার করে প্রশিক্ষিত হয় এবং টেনসরফ্লো লাইটের সাথে স্থাপন করা হয়।

এবার শুরু করা যাক

আপনি যদি টেনসরফ্লো লাইটে নতুন হন এবং অ্যান্ড্রয়েডের সাথে কাজ করছেন, আমরা নীচের উদাহরণটি অ্যাপ্লিকেশনটি এক্সপ্লোর করার পরামর্শ দিচ্ছি যা আপনাকে শুরু করতে সহায়তা করতে পারে।

অ্যান্ড্রয়েড উদাহরণ

আপনি যদি একটি প্ল্যাটফর্ম অ্যান্ড্রয়েড ছাড়া অন্য ব্যবহার করছেন, অথবা আপনি ইতিমধ্যে এর সাথে পরিচিত থাকেন TensorFlow লাইট API গুলি , আপনি আমাদের প্রশিক্ষিত মডেল ডাউনলোড করতে পারেন।

মডেল ডাউনলোড করুন

কিভাবে এটা কাজ করে

'প্লেন স্ট্রাইক' নামে একটি ছোট বোর্ড গেম খেলতে মডেলটি গেম এজেন্টের জন্য তৈরি। এই গেমটি এবং তার নিয়ম একটি দ্রুত পরিচয়ের জন্য, দয়া করে এই পড়ুন README

অ্যাপের ইউআইয়ের নীচে আমরা একটি এজেন্ট তৈরি করেছি যা মানব প্লেয়ারের বিরুদ্ধে খেলবে। এজেন্টটি একটি 3-স্তর এমএলপি যা বোর্ডের রাজ্যটিকে ইনপুট হিসাবে গ্রহণ করে এবং cells৪ সম্ভাব্য বোর্ড কোষের প্রত্যেকটির জন্য পূর্বাভাসিত স্কোরকে আউটপুট করে। মডেল নীতি গ্রেডিয়েন্ট (পুনরায় বলবৎ) ব্যবহার করে প্রশিক্ষণ দেওয়া হয় এবং আপনার প্রশিক্ষণ কোড জানতে পারেন এখানে । এজেন্টকে প্রশিক্ষণ দেওয়ার পরে, আমরা মডেলটিকে টিএফলাইটে রূপান্তর করি এবং এন্ড্রয়েড অ্যাপে এটি স্থাপন করি।

অ্যান্ড্রয়েড অ্যাপ্লিকেশনটিতে আসল গেম খেলার সময়, যখন এজেন্টের পদক্ষেপ নেওয়ার পালা আসে, তখন এজেন্টটি মানব প্লেয়ারের বোর্ড স্টেটের (নীচে বোর্ডটি) দেখেন, যাতে পূর্বের সফল এবং ব্যর্থ ধর্মঘট (হিট এবং মিস) সম্পর্কিত তথ্য রয়েছে contains , এবং পরবর্তী কোথা থেকে আঘাত করা হবে তা পূর্বাভাস দেওয়ার জন্য প্রশিক্ষিত মডেল ব্যবহার করে, যাতে এটি মানব খেলোয়াড়ের আগে খেলা শেষ করতে পারে।

পারফরম্যান্স মানদণ্ড

পারফরমেন্স বেঞ্চমার্ক সংখ্যার বর্ণনা টুল দিয়ে তৈরি হয় এখানে

ণশড মডেল আকার যন্ত্র সিপিইউ
নীতি গ্রেডিয়েন্ট 84 কেবি পিক্সেল 3 (অ্যান্ড্রয়েড 10) 0.01 মিমি *
পিক্সেল 4 (অ্যান্ড্রয়েড 10) 0.01 মিমি *

* 1 টি থ্রেড ব্যবহৃত হয়েছে।

ইনপুটস

মডেল একটি 3-ডি গ্রহণ float32 বোর্ড রাষ্ট্র হিসেবে (1, 8, 8) এর টেন্সর।

আউটপুটস

মডেল একটি 2-D: ফেরৎ float32 64 সম্ভব ধর্মঘট অবস্থানের মধ্যে প্রত্যেকের জন্য পূর্বাভাস স্কোর হিসাবে আকৃতি টেন্সর (1,64)।

নিজের মডেলকে প্রশিক্ষণ দিন

আপনি পরিবর্তন দ্বারা একটি বৃহত্তর / ছোট বোর্ডের জন্য আপনার নিজের মডেল প্রশিক্ষণ পারে BOARD_SIZE মাপদণ্ড প্রশিক্ষণ কোড