이 페이지는 Cloud Translation API를 통해 번역되었습니다.
Switch to English

포즈 추정

시작하다

PoseNet 은 주요 신체 관절의 위치를 ​​추정하여 이미지 또는 비디오에서 사람의 포즈를 추정하는 데 사용할 수있는 비전 모델입니다.

스타터 모델 다운로드

웹 브라우저에서 이것을 실험하고 싶다면 TensorFlow.js GitHub 저장소를 확인하세요.

예제 응용 프로그램 및 가이드

Android 및 iOS 용 PoseNet 모델을 보여주는 TensorFlow Lite 애플리케이션 예제를 제공합니다.

Android 예 iOS 예

작동 원리

포즈 추정은 이미지와 비디오에서 사람의 모습을 감지하는 컴퓨터 비전 기술을 의미하므로 예를 들어 이미지에서 누군가의 팔꿈치가 나타나는 위치를 결정할 수 있습니다.

분명히이 기술은 이미지에있는 사람을 인식하지 못합니다. 알고리즘은 단순히 주요 신체 관절의 위치를 ​​추정하는 것입니다.

감지 된 핵심 포인트는 0.0에서 1.0 사이의 신뢰도 점수와 함께 "부품 ID"로 인덱싱되며 1.0이 가장 높습니다.

신분증 부품
0
1 leftEye
2 오른쪽 눈
왼쪽 귀
4 오른쪽 귀
5 left 숄더
6 rightShoulder
7 leftElbow
8 rightElbow
9 왼쪽 손목
10 오른쪽 손목
11 leftHip
12 rightHip
13 leftKnee
14 rightKnee
15 leftAnkle
16 rightAnkle

성능 벤치 마크

여기에 설명 된 도구를 사용하여 성능 벤치 마크 수치가 생성 됩니다 .

모델명 모델 사이즈 장치 GPU CPU
포세 넷 12.7Mb Pixel 3 (Android 10) 12ms 31ms *
Pixel 4 (Android 10) 12ms 19ms *
iPhone XS (iOS 12.4.1) 4.8ms 22ms **

* 4 개의 스레드가 사용되었습니다.

** 최고의 성능 결과를 위해 iPhone에서 2 개의 스레드가 사용되었습니다.

예제 출력

포즈 추정을 보여주는 애니메이션

수행 방법

성능은 장치 및 출력 스트라이드 (히트 맵 및 오프셋 벡터)에 따라 다릅니다. PoseNet 모델은 이미지 크기가 변하지 않으므로 이미지가 축소되었는지 여부에 관계없이 원본 이미지와 동일한 배율로 포즈 위치를 예측할 수 있습니다. 즉, PoseNet은 성능을 희생하면서 더 높은 정확도를 갖도록 구성 할 수 있습니다.

출력 보폭은 입력 이미지 크기를 기준으로 출력을 축소하는 정도를 결정합니다. 레이어의 크기와 모델 출력에 영향을줍니다. 출력 보폭이 높을수록 네트워크 및 출력 레이어의 해상도와 그에 따른 정확도가 낮아집니다. 이 구현에서 출력 보폭은 8, 16 또는 32의 값을 가질 수 있습니다. 즉, 출력 보폭이 32이면 성능은 가장 빠르지 만 정확도는 가장 낮고 8은 정확도는 높지만 성능은 가장 느립니다. 16으로 시작하는 것이 좋습니다.

다음 이미지는 출력 보폭이 입력 이미지 크기를 기준으로 출력을 축소하는 정도를 결정하는 방법을 보여줍니다. 출력 보폭이 높을수록 더 빠르지 만 정확도가 떨어집니다.

출력 스트라이드 및 히트 맵 해상도

자세 추정에 대해 자세히 알아보기

사용 사례