开始使用
PoseNet 能够通过预测图像或视频中人体的关键位置进行姿势的预测。
Android 和 iOS 设备上的一对一课程即将面世. 与此同时,如果您想要在 web 浏览器中体验此模块,可以访问 TensorFlow.js GitHub 代码仓库.
工作原理
姿势检测通过使用计算机图形技术来对图片和视频中的人进行检测和判断,如图片中的人露出了肘臂。
为了达到清晰的目的,该算法只是对图像中的人简单的预测身体关键位置所在,而不会去辨别此人是谁。
关键点检测使用“编号 部位”的格式进行索引,并对部位的探测结果伴随一个信任值。信任值取值范围在 0.0 至 1.0,1.0 为最高信任值。
编号 | 部位 |
---|---|
0 | 鼻子 |
1 | 左眼 |
2 | 右眼 |
3 | 左耳 |
4 | 右耳 |
5 | 左肩 |
6 | 右肩 |
7 | 左肘 |
8 | 右肘 |
9 | 左腕 |
10 | 右腕 |
11 | 左髋 |
12 | 右髋 |
13 | 左膝 |
14 | 右膝 |
15 | 左踝 |
16 | 右踝 |
示例输出
模块性能
性能很大程度取决于您的设备性能以及输出的幅度(热点图和偏移向量)。PoseNet 对于不同尺寸的图片是不变式,也就是说在原始图像和缩小后图像中预测姿势位置是一样的。这也意味着 PostNet 能精确配置性能消耗。
输出幅度决定了缩小后的和输入的图片尺寸的相关程度。输出幅度同样影响到了图层的尺寸和输出的模型。更高的输出幅度决定了更小的网络和输出的图层分辨率,和更小的可信度。
在此示例中,输出幅度可以为 8、16 或 32。换句话说,当输出幅度为 32,则会拥有最高性能和最差的可信度;当输出幅度为 8,则会有用最高的可信度和最低的性能。我们给出的建议是 16。
下图展示了输出幅度的程度决定缩放后的输出和输入的图像的相关度。更高的输出幅度速度更快,但也会导致更低的可信度。