Se usó la API de Cloud Translation para traducir esta página.
Switch to English

Estimación de pose

Empezar

PoseNet es un modelo de visión que se puede utilizar para estimar la pose de una persona en una imagen o video estimando dónde están las articulaciones clave del cuerpo.

Descargar modelo de inicio

Si desea experimentar esto en un navegador web, consulte el repositorio de GitHub de TensorFlow.js .

Aplicaciones y guías de ejemplo

Proporcionamos aplicaciones TensorFlow Lite de ejemplo que demuestran el modelo PoseNet tanto para Android como para iOS.

Ejemplo de Android Ejemplo de iOS

Cómo funciona

La estimación de pose se refiere a las técnicas de visión por computadora que detectan figuras humanas en imágenes y videos, de modo que uno podría determinar, por ejemplo, dónde aparece el codo de alguien en una imagen.

Para ser claros, esta tecnología no reconoce quién está en una imagen. El algoritmo simplemente estima dónde están las articulaciones clave del cuerpo.

Los puntos clave detectados están indexados por "ID de pieza", con un puntaje de confianza entre 0.0 y 1.0, siendo 1.0 el más alto.

Carné de identidad Parte
0 nariz
1 ojo izquierdo
2 Ojo derecho
3 oreja izquierda
4 oreja derecha
5 hombro izquierdo
6 hombro derecho
7 codo izquierdo
8 codo derecho
9 Muñeca izquierda
10 muñeca derecha
11 cadera izquierda
12 cadera derecha
13 rodilla izquierda
14 rodilla derecha
15 tobillo izquierdo
dieciséis tobillo derecho

Benchmarks de desempeño

Los números de referencia de rendimiento se generan con la herramienta que se describe aquí .

Nombre del modelo Tamaño del modelo Dispositivo GPU UPC
Posenet 12,7 Mb Pixel 3 (Android 10) 12 ms 31 ms *
Pixel 4 (Android 10) 12 ms 19 ms *
iPhone XS (iOS 12.4.1) 4,8 ms 22 ms **

* 4 hilos utilizados.

** 2 subprocesos utilizados en iPhone para obtener el mejor resultado de rendimiento.

Salida de ejemplo

Animación que muestra la estimación de pose

Como funciona

El rendimiento varía según el dispositivo y el paso de salida (mapas de calor y vectores de compensación). El modelo PoseNet es invariante en el tamaño de la imagen, lo que significa que puede predecir posiciones de pose en la misma escala que la imagen original, independientemente de si la imagen se ha reducido o no. Esto significa que PoseNet se puede configurar para tener una mayor precisión a expensas del rendimiento.

El paso de salida determina cuánto estamos reduciendo la salida en relación con el tamaño de la imagen de entrada. Afecta el tamaño de las capas y los resultados del modelo. Cuanto mayor sea el paso de salida, menor será la resolución de las capas en la red y las salidas y, en consecuencia, su precisión. En esta implementación, la zancada de salida puede tener valores de 8, 16 o 32. En otras palabras, una zancada de salida de 32 dará como resultado el rendimiento más rápido pero la precisión más baja, mientras que 8 dará como resultado la precisión más alta pero el rendimiento más lento. Recomendamos comenzar con 16.

La siguiente imagen muestra cómo el paso de salida determina cuánto estamos reduciendo la salida en relación con el tamaño de la imagen de entrada. Un paso de salida más alto es más rápido pero da como resultado una menor precisión.

Zancada de salida y resolución de mapa de calor

Leer más sobre la estimación de pose

Casos de uso