ML Community Day คือวันที่ 9 พฤศจิกายน! ร่วมกับเราสำหรับการปรับปรุงจาก TensorFlow, JAX และอื่น ๆ เรียนรู้เพิ่มเติม

ประมาณการท่า

การประเมินท่าทางเป็นงานของการใช้แบบจำลอง ML เพื่อประเมินท่าทางของบุคคลจากภาพหรือวิดีโอโดยการประเมินตำแหน่งเชิงพื้นที่ของข้อต่อที่สำคัญของร่างกาย (ประเด็นสำคัญ)

เริ่ม

หากคุณเพิ่งเริ่มใช้ TensorFlow Lite และกำลังทำงานกับ Android หรือ iOS ให้สำรวจตัวอย่างแอปพลิเคชันต่อไปนี้ที่สามารถช่วยคุณเริ่มต้นได้

Android เช่น iOS ของคุณตัวอย่างเช่น

หากคุณมีความคุ้นเคยกับ TensorFlow Lite APIs ดาวน์โหลดเริ่มต้น MoveNet รูปแบบการก่อให้เกิดการประมาณค่าและไฟล์สนับสนุน

ดาวน์โหลดรุ่นสตาร์ท

หากคุณต้องการที่จะลองประมาณค่าก่อให้เกิดบนเว็บเบราว์เซอร์ให้ตรวจสอบ TensorFlow JS สาธิต

คำอธิบายแบบจำลอง

มันทำงานอย่างไร

การประมาณการท่าทางหมายถึงเทคนิคการมองเห็นด้วยคอมพิวเตอร์ที่ตรวจจับร่างมนุษย์ในรูปภาพและวิดีโอ เพื่อให้สามารถระบุได้ ตัวอย่างเช่น ตำแหน่งที่ข้อศอกของใครบางคนปรากฏขึ้นในภาพ สิ่งสำคัญคือต้องตระหนักถึงข้อเท็จจริงที่ว่าการประมาณการท่าทางเป็นเพียงการประมาณว่าข้อต่อหลักของร่างกายอยู่ที่ไหนและไม่รู้จักว่าใครอยู่ในภาพหรือวิดีโอ

แบบจำลองการประมาณค่าท่าทางจะใช้ภาพของกล้องที่ประมวลผลเป็นข้อมูลเข้าและส่งออกข้อมูลเกี่ยวกับจุดสำคัญ จุดสำคัญที่ตรวจพบจะถูกจัดทำดัชนีโดยรหัสชิ้นส่วน โดยมีคะแนนความเชื่อมั่นระหว่าง 0.0 ถึง 1.0 คะแนนความเชื่อมั่นบ่งชี้ความน่าจะเป็นที่มีจุดสำคัญอยู่ในตำแหน่งนั้น

เราจัดเตรียมการใช้งานอ้างอิงของแบบจำลองการประมาณค่า TensorFlow Lite สองแบบ:

  • MoveNet: โมเดลการประมาณการท่าที่ล้ำสมัยมีให้เลือกสองรสชาติ: Lighting และ Thunder ดูการเปรียบเทียบระหว่างสองรายการนี้ในส่วนด้านล่าง
  • PoseNet: รุ่นก่อนหน้าก่อให้เกิดแบบจำลองการประมาณที่เปิดตัวในปี 2560

ข้อต่อต่างๆ ของร่างกายที่ตรวจพบโดยแบบจำลองการประมาณท่าทางมีตารางด้านล่าง:

NS ส่วนหนึ่ง
0 จมูก
1 ตาซ้าย
2 ตาขวา
3 หูซ้าย
4 หูขวา
5 ไหล่ซ้าย
6 ไหล่ขวา
7 ศอกซ้าย
8 ข้อศอกขวา
9 ข้อมือซ้าย
10 ข้อมือขวา
11 สะโพกซ้าย
12 สะโพกขวา
13 เข่าซ้าย
14 เข่าขวา
15 ข้อเท้าซ้าย
16 ข้อเท้าขวา

เอาต์พุตตัวอย่างแสดงอยู่ด้านล่าง:

แอนิเมชั่นแสดงการประมาณท่า

มาตรฐานประสิทธิภาพ

MoveNet มีให้เลือกสองรสชาติ:

  • MoveNet.Lighting มีขนาดเล็กกว่า เร็วกว่า แต่แม่นยำน้อยกว่าเวอร์ชัน Thunder สามารถทำงานแบบเรียลไทม์บนสมาร์ทโฟนสมัยใหม่
  • MoveNet.Thunder เป็นเวอร์ชันที่แม่นยำกว่า แต่ยังใหญ่กว่าและช้ากว่า Lightning มีประโยชน์สำหรับกรณีการใช้งานที่ต้องการความแม่นยำสูงกว่า

MoveNet มีประสิทธิภาพเหนือกว่า PoseNet ในชุดข้อมูลที่หลากหลาย โดยเฉพาะอย่างยิ่งในรูปภาพที่มีอิมเมจการออกกำลังกาย ดังนั้น เราขอแนะนำให้ใช้ MoveNet ผ่าน PoseNet

หมายเลขมาตรฐานประสิทธิภาพได้รับการสร้างขึ้นด้วยเครื่องมือ อธิบายไว้ที่นี่ ความถูกต้อง (MAP) หมายเลขวัดย่อยของที่ ชุด COCO ที่เรากรองและตัดภาพแต่ละภาพจะมีเพียงคนเดียว

แบบอย่าง ขนาด (MB) แผนที่ เวลาในการตอบสนอง (มิลลิวินาที)
Pixel 5 - CPU 4 เธรด Pixel 5 - GPU Raspberry Pi 4 - CPU 4 เธรด
MoveNet.Thunder (FP16 ควอนไทซ์) 12.6MB 72.0 155ms 45ms 594ms
MoveNet.Thunder (INT8 ควอนไทซ์) 7.1MB 68.9 100ms 52ms 251ms
MoveNet.Lightning (FP16 เชิงปริมาณ) 4.8MB 63.0 60ms 25ms 186ms
MoveNet.Lighting (INT8 ควอนไทซ์) 2.9MB 57.4 52ms 28ms 95ms
PoseNet (แกนหลัก MobileNetV1, FP32) 13.3MB 45.6 80ms 40ms 338ms

อ่านเพิ่มเติมและทรัพยากร

  • ตรวจสอบนี้ โพสต์บล็อก ที่จะเรียนรู้เพิ่มเติมเกี่ยวกับการประมาณค่าใช้ท่า MoveNet และ TensorFlow Lite
  • ตรวจสอบนี้ โพสต์บล็อก ที่จะเรียนรู้เพิ่มเติมเกี่ยวกับการประมาณก่อให้เกิดบนเว็บ
  • ตรวจสอบนี้ กวดวิชา ที่จะเรียนรู้เกี่ยวกับการทำงานใน MoveNet หลามโดยใช้แบบจำลองจาก TensorFlow Hub
  • Coral/EdgeTPU สามารถทำให้การประเมินท่าทางทำงานเร็วขึ้นมากบนอุปกรณ์ IoT ดู รุ่น EdgeTPU ที่ดีที่สุด สำหรับรายละเอียดเพิ่มเติม
  • อ่านกระดาษ PoseNet ที่นี่

นอกจากนี้ ให้ตรวจสอบกรณีการใช้งานของการประมาณค่าท่าทางเหล่านี้