این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.
Switch to English

تشخیص اشیا

با جعبه های محدود کننده ، چندین شی را در یک تصویر تشخیص دهید. 90 کلاس مختلف از اشیا را تشخیص دهید.

شروع کنید

اگر در TensorFlow Lite تازه کار هستید و با Android یا iOS کار می کنید ، توصیه می کنیم موارد زیر را بررسی کنید که می توانند به شما در شروع کار کمک کنند.

مثال اندروید مثال iOS

اگر از سیستم عامل دیگری غیر از Android یا iOS استفاده می کنید یا از قبل با TensorFlow Lite API آشنایی دارید ، می توانید مدل شناسایی شی شروع کننده و برچسب های همراه ما را بارگیری کنید.

دانلود مدل استارتر با Medatada

برای کسب اطلاعات بیشتر در مورد مدل استارتر ، به مدل شروع کننده مراجعه کنید.

برای کسب اطلاعات بیشتر در مورد Medatada و قسمتهای مرتبط (به عنوان مثال: labels.txt ) به متادیتای مدل ها مراجعه کنید

تشخیص اشیا چیست؟

با توجه به یک تصویر یا جریان ویدئویی ، یک مدل تشخیص اشیا can می تواند شناسایی کند که کدام یک از مجموعه های شناخته شده اشیا ممکن است وجود داشته باشد و اطلاعاتی در مورد موقعیت آنها در تصویر ارائه دهد.

به عنوان مثال ، این تصویر از برنامه نمونه ما نشان می دهد که چگونه دو شی objects شناخته شده و موقعیت های آنها حاشیه نویسی شده است:

عکس صفحه مثال Android

یک مدل تشخیص اشیا آموزش داده می شود تا وجود و مکان چندین طبقه از اشیا را تشخیص دهد. به عنوان مثال ، یک مدل ممکن است با تصاویری که حاوی تکه های مختلف میوه است ، همراه با برچسبی که طبقه میوه آنها را نشان می دهد (به عنوان مثال یک سیب ، یک موز یا یک توت فرنگی) ، و داده هایی که مشخص می کند هر یک از اشیا در کجا ظاهر می شود ، آموزش داده شود. تصویر.

وقتی متعاقباً تصویری را به مدل ارائه می دهیم ، لیستی از اشیا it شناسایی شده ، محل یك جعبه اتصال كه حاوی هر شی است و نمره ای كه نشان دهنده اطمینان از درست بودن تشخیص باشد ، از آن خارج می شود.

خروجی مدل

تصور کنید مدلی برای تشخیص سیب ، موز و توت فرنگی آموزش دیده است. وقتی تصویری را به آن منتقل می کنیم ، تعداد مشخصی از نتایج تشخیص - در این مثال ، 5 نتیجه می گیرد.

کلاس نمره محل
سیب 0.92 [18 ، 21 ، 57 ، 63]
موز 0.88 [100 ، 30 ، 180 ، 150]
توت فرنگی 0.87 [7 ، 82 ، 89 ، 163]
موز 0.23 [42 ، 66 ، 57 ، 83]
سیب 0.11 [6 ، 42 ، 31 ، 58]

نمره اعتماد به نفس

برای تفسیر این نتایج ، می توانیم نمره و مکان هر شی کشف شده را بررسی کنیم. امتیاز عددی بین 0 تا 1 است که نشانگر اطمینان از تشخیص واقعی شی the است. هرچه عدد به 1 نزدیکتر باشد ، مدل از اعتماد به نفس بیشتری برخوردار است.

بسته به برنامه کاربردی خود ، می توانید یک آستانه قطع تصمیم بگیرید که زیر آن نتایج تشخیص را کنار بگذارید. برای مثال ما ، ممکن است تصمیم بگیریم که یک برش معقول نمره 0.5 باشد (به معنی 50٪ احتمال معتبر بودن تشخیص). در این صورت ، ما دو شی objects آخر آرایه را نادیده می گیریم ، زیرا این نمرات اطمینان زیر 0.5 است:

کلاس نمره محل
سیب 0.92 [18 ، 21 ، 57 ، 63]
موز 0.88 [100 ، 30 ، 180 ، 150]
توت فرنگی 0.87 [7 ، 82 ، 89 ، 163]
موز 0.23 [42 ، 66 ، 57 ، 83]
سیب 0.11 [6 ، 42 ، 31 ، 58]

برشی که استفاده می کنید باید براساس این باشد که آیا شما با مثبت کاذب (اشیایی که به اشتباه شناسایی شده اند یا مناطقی از تصویر که به اشتباه به عنوان اشیا مشخص می شوند) به راحتی اشیا راحت تر هستند یا منفی های نادرست (اشیا اصلی از دست رفت زیرا اعتماد به نفس آنها پایین بود).

به عنوان مثال ، در تصویر زیر ، یک گلابی (که جسمی نیست که مدل برای شناسایی آن آموزش دیده باشد) به عنوان "شخص" اشتباه شناسایی شده است. این مثالی از مثبت کاذب است که می تواند با انتخاب یک برش مناسب نادیده گرفته شود. در این حالت ، قطع 0.6 (یا 60٪) به راحتی مثبت کاذب را حذف می کند.

عکس صفحه از مثال Android نشان دهنده یک مثبت نادرست است

محل

برای هر شی detected شناسایی شده ، مدل آرایه ای از چهار عدد را به نمایش می گذارد که نشان دهنده یک مستطیل محدود کننده است که موقعیت آن را احاطه کرده است. برای مدل آغازینی که ارائه می دهیم ، اعداد به شرح زیر مرتب می شوند:

[ بالا، ترک کرد، پایین ، درست ]

مقدار بالایی فاصله لبه بالایی مستطیل از بالای تصویر را به پیکسل نشان می دهد. مقدار سمت چپ فاصله لبه سمت چپ از سمت چپ تصویر ورودی را نشان می دهد. مقادیر دیگر لبه های پایین و راست را به روشی مشابه نشان می دهند.

معیارهای عملکرد

اعداد معیار عملکرد با ابزاری که در اینجا توضیح داده شده تولید می شوند.

نام مدل اندازه مدل دستگاه پردازنده گرافیکی پردازنده
COCO SSD MobileNet v1 27 مگابایت Pixel 3 (اندروید 10) 22 میلی ثانیه 46 میلی ثانیه *
Pixel 4 (اندروید 10) 20 میلی ثانیه 29 میلی ثانیه *
آیفون XS (iOS 12.4.1) 7.6 میلی ثانیه 11 ثانیه **

* 4 موضوع استفاده شده است.

** 2 موضوع مورد استفاده در iPhone برای بهترین نتیجه عملکرد.

مدل استارتر

ما توصیه می کنیم با این مدل کوکو SSD MobileNet v1 که از قبل آموزش داده شده است ، شروع کنید.

مدل استارتر و برچسب ها را بارگیری کنید

موارد استفاده و محدودیت ها

مدل تشخیص شی object که ارائه می دهیم می تواند حداکثر 10 شی را در یک تصویر شناسایی و مکان یابی کند. برای تشخیص 90 کلاس از اشیا آموزش داده شده است. برای لیست کامل کلاسها ، به فایل برچسب های جاسازی شده در مدل با تجسم متادیتا مراجعه کنید .

اگر می خواهید یک مدل را برای شناسایی کلاس های جدید آموزش دهید ، به مدل سفارشی مراجعه کنید.

برای موارد استفاده زیر ، باید نوع دیگری از مدل را استفاده کنید:

ورودی

مدل تصویری را به عنوان ورودی می گیرد. تصویر پیش بینی شده 300x300 پیکسل ، با سه کانال (قرمز ، آبی و سبز) در هر پیکسل است. این باید به عنوان بافر مسطح 270،000 مقدار بایت (300x300x3) به مدل خورانده شود. از آنجا که مدل کوانتیزه می شود ، هر مقدار باید یک بایت واحد باشد که مقدار بین 0 تا 255 را نشان دهد.

خروجی

مدل چهار آرایه تولید می کند که به شاخص های 0-4 ترسیم می شود. آرایه های 0 ، 1 و 2 10 شی کشف شده را توصیف می کنند ، با یک عنصر در هر آرایه مربوط به هر شی. همیشه 10 شی کشف می شود.

فهرست مطالب نام شرح
0 مکانها آرایه چند بعدی [10] [4] مقادیر نقطه شناور بین 0 و 1 ، آرایه های داخلی نشان دهنده جعبه های محدود کننده به شکل [بالا ، چپ ، پایین ، راست]
1 کلاس ها آرایه ای از 10 عدد صحیح (خروجی به عنوان مقادیر شناور) هر کدام شاخص یک برچسب کلاس را از فایل برچسب ها نشان می دهد
2 امتیازات آرایه ای از 10 مقدار نقطه شناور بین 0 و 1 نشان دهنده احتمال تشخیص یک کلاس است
3 تعداد و ردیابی ها آرایه ای با طول 1 حاوی مقدار نقطه شناور که بیانگر تعداد کل نتایج تشخیص است

مدل را سفارشی کنید

مدل های از پیش آموزش دیده ای که ارائه می دهیم برای شناسایی 90 کلاس از اشیا آموزش دیده اند. برای لیست کامل کلاس ها ، به فایل برچسب ها در فراداده مدل مراجعه کنید .

شما می توانید از یک تکنیک معروف به یادگیری انتقال برای آموزش مجدد یک مدل برای تشخیص کلاسهایی که در مجموعه اصلی نیستند استفاده کنید. به عنوان مثال ، شما می توانید مدل را دوباره آموزش دهید تا انواع مختلفی از سبزیجات را تشخیص دهد ، با وجود اینکه فقط یک سبزی در داده های اصلی آموزش وجود دارد. برای این کار ، برای هر یک از برچسب های جدیدی که می خواهید آموزش دهید ، به مجموعه ای از تصاویر آموزشی نیاز خواهید داشت.

بیاموزید که چگونه آموزش و انتقال را در آموزش و خدمت به یک ردیاب شیector متحرک در زمان واقعی در 30 دقیقه انجام دهید .