เข้าร่วม Women in ML Symposium ในวันที่ 7 ธันวาคม ลงทะเบียนตอนนี้

ประมาณการท่า

จัดทุกอย่างให้เป็นระเบียบอยู่เสมอด้วยคอลเล็กชัน บันทึกและจัดหมวดหมู่เนื้อหาตามค่ากำหนดของคุณ

การประเมินท่าทางเป็นงานของการใช้แบบจำลอง ML เพื่อประเมินท่าทางของบุคคลจากภาพหรือวิดีโอโดยการประเมินตำแหน่งเชิงพื้นที่ของข้อต่อที่สำคัญของร่างกาย (ประเด็นสำคัญ)

เริ่ม

หากคุณเพิ่งเริ่มใช้ TensorFlow Lite และกำลังทำงานกับ Android หรือ iOS ให้สำรวจตัวอย่างแอปพลิเคชันต่อไปนี้ที่สามารถช่วยคุณเริ่มต้นได้

ตัวอย่าง Android ตัวอย่าง iOS

หากคุณคุ้นเคยกับ TensorFlow Lite APIs ให้ดาวน์โหลด MoveNet เริ่มต้นแบบจำลองการประมาณค่าและไฟล์สนับสนุน

ดาวน์โหลดรุ่นสตาร์ท

หากคุณต้องการลองประมาณค่าบนเว็บเบราว์เซอร์ ลองดู TensorFlow JS Demo

คำอธิบายแบบจำลอง

มันทำงานอย่างไร

การประมาณการท่าทางหมายถึงเทคนิคการมองเห็นด้วยคอมพิวเตอร์ที่ตรวจจับร่างมนุษย์ในรูปภาพและวิดีโอ เพื่อให้สามารถระบุได้ ตัวอย่างเช่น ตำแหน่งที่ข้อศอกของใครบางคนปรากฏขึ้นในภาพ สิ่งสำคัญคือต้องตระหนักถึงข้อเท็จจริงที่ว่าการประมาณการท่าทางเป็นเพียงการประมาณว่าข้อต่อหลักของร่างกายอยู่ที่ไหนและไม่รู้จักว่าใครอยู่ในภาพหรือวิดีโอ

แบบจำลองการประมาณค่าท่าทางจะใช้ภาพของกล้องที่ประมวลผลเป็นข้อมูลเข้าและส่งออกข้อมูลเกี่ยวกับจุดสำคัญ จุดสำคัญที่ตรวจพบจะถูกจัดทำดัชนีโดยรหัสชิ้นส่วน โดยมีคะแนนความเชื่อมั่นระหว่าง 0.0 ถึง 1.0 คะแนนความเชื่อมั่นบ่งชี้ความน่าจะเป็นที่มีจุดสำคัญอยู่ในตำแหน่งนั้น

เราจัดเตรียมการใช้งานอ้างอิงของแบบจำลองการประมาณค่า TensorFlow Lite สองแบบ:

  • MoveNet: โมเดลการประมาณการท่าที่ล้ำสมัยมีให้เลือกสองรสชาติ: Lighting และ Thunder ดูการเปรียบเทียบระหว่างสองรายการนี้ในส่วนด้านล่าง
  • PoseNet: รุ่นก่อนหน้าก่อให้เกิดแบบจำลองการประมาณที่เปิดตัวในปี 2560

ข้อต่อต่างๆ ของร่างกายที่ตรวจพบโดยแบบจำลองการประมาณท่าทางมีตารางด้านล่าง:

ไอดี ส่วนหนึ่ง
0 จมูก
1 ตาซ้าย
2 ตาขวา
3 หูซ้าย
4 หูขวา
5 ไหล่ซ้าย
6 ไหล่ขวา
7 ศอกซ้าย
8 ข้อศอกขวา
9 ข้อมือซ้าย
10 ข้อมือขวา
11 สะโพกซ้าย
12 สะโพกขวา
13 เข่าซ้าย
14 เข่าขวา
15 ข้อเท้าซ้าย
16 ข้อเท้าขวา

เอาต์พุตตัวอย่างแสดงอยู่ด้านล่าง:

แอนิเมชั่นแสดงการประมาณท่า

มาตรฐานประสิทธิภาพ

MoveNet มีให้เลือกสองรสชาติ:

  • MoveNet.Lighting มีขนาดเล็กกว่า เร็วกว่า แต่แม่นยำน้อยกว่าเวอร์ชัน Thunder สามารถทำงานแบบเรียลไทม์บนสมาร์ทโฟนสมัยใหม่
  • MoveNet.Thunder เป็นเวอร์ชันที่แม่นยำกว่า แต่ยังใหญ่กว่าและช้ากว่า Lightning มีประโยชน์สำหรับกรณีการใช้งานที่ต้องการความแม่นยำสูงกว่า

MoveNet มีประสิทธิภาพเหนือกว่า PoseNet ในชุดข้อมูลที่หลากหลาย โดยเฉพาะอย่างยิ่งในรูปภาพที่มีอิมเมจการออกกำลังกาย ดังนั้น เราขอแนะนำให้ใช้ MoveNet ผ่าน PoseNet

ตัวเลขเปรียบเทียบประสิทธิภาพสร้างขึ้นด้วยเครื่องมือที่ อธิบายไว้ที่นี่ ตัวเลขความแม่นยำ (mAP) ถูกวัดจากชุดย่อยของ ชุดข้อมูล COCO ที่เรากรองและครอบตัดแต่ละภาพเพื่อให้มีเพียงคนเดียว

แบบอย่าง ขนาด (MB) แผนที่ เวลาในการตอบสนอง (มิลลิวินาที)
Pixel 5 - CPU 4 เธรด Pixel 5 - GPU Raspberry Pi 4 - CPU 4 เธรด
MoveNet.Thunder (FP16 ควอนไทซ์) 12.6MB 72.0 155ms 45ms 594ms
MoveNet.Thunder (INT8 ควอนไทซ์) 7.1MB 68.9 100ms 52ms 251ms
MoveNet.Lightning (FP16 เชิงปริมาณ) 4.8MB 63.0 60ms 25ms 186ms
MoveNet.Lighting (INT8 ควอนไทซ์) 2.9MB 57.4 52ms 28ms 95ms
PoseNet (แกนหลัก MobileNetV1, FP32) 13.3MB 45.6 80ms 40ms 338ms

อ่านเพิ่มเติมและแหล่งข้อมูล

  • ดู บล็อกโพสต์ นี้เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับการประมาณการท่าทางโดยใช้ MoveNet และ TensorFlow Lite
  • ดู บล็อกโพสต์ นี้เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับการประมาณการท่าทางบนเว็บ
  • ดูบทช่วย สอน นี้เพื่อเรียนรู้เกี่ยวกับการรัน MoveNet บน Python โดยใช้โมเดลจาก TensorFlow Hub
  • Coral/EdgeTPU สามารถทำให้การประเมินท่าทางทำงานเร็วขึ้นมากบนอุปกรณ์ขอบ ดู รุ่นที่ได้รับการปรับปรุงให้เหมาะสมกับ EdgeTPU สำหรับรายละเอียดเพิ่มเติม
  • อ่านกระดาษ PoseNet ที่นี่

นอกจากนี้ ให้ตรวจสอบกรณีการใช้งานของการประมาณค่าท่าทางเหล่านี้