《Nature communications》:考虑人体形状的稀疏传感器实现人体运动快速重建

【背景介绍】

动作捕捉技术普遍应用于虚拟现实(VR)和增强现实(AR)、电影和游戏制作、人机分析、生物力学分析、医疗康复、运动训练等各个领域。虽然基于标记的光学运动捕捉方法可以实现非常高的精度,但它们需要复杂的数据后处理,并且在多个遮挡的情况下可能无效。 基于相机的方法提供了一种方便的方法来估计人体运动,但它们不能保证在极端遮挡环境下有效的运动重建,并且经常由于肢体之间的遮挡而做出错误的估计。使用大量的传感器布置在身体的各个位置可以在一定程度上提高重建的准确性,但它引入了佩戴过程的复杂性,还对运动造成了限制。针对以上问题,本文提出了一种基于6个传感器的人体姿态估计算法,考虑了人体的形态参数,设计了树形的运动学反解器,取消了同类方法对未来帧的依赖。在保证了重建精度的同时降低了动作重建的延迟和解算时间,能够实现在英伟达嵌入式开发板上以15 ms延迟和65 FPS的帧率稳定运行。


【内容介绍】

基于惯性测量单元的方法在捕捉大规模、复杂的多人环境中的运动方面具有巨大的潜力,尤其是基于少数惯性测量单元的方法由于其简单性和灵活性而具有更多的研究价值,但是提高此类方法的计算效率并减少延迟具有挑战性。

近期智能制造与精密加工研究室在Nature communications上发表题为“Fast Human Motion reconstruction from sparse inertial measurement units considering the human shape”的文章,提出了一种考虑身体参数的基于6个惯性测量单元的全身运动方法。该方法通观测因子图引入人体形状信息,并消除对未来帧的依赖。实验表明,与之前的方法相比,该方法在保证重建精度的同时,可以极大地提高推理速度并降低延迟。本文第一作者为清华大学机械系20级硕士毕业生肖轩(现为阿里巴巴算法工程师),通讯作者为清华大学机械系张建富教授。清华大学机械系23级硕士生宫傲、王健健副教授、冯平法教授,张翔宇助理研究员共同参与了本工作。清华大学国强研究院对本研究提供了重要支持。

文章链接:https://www.nature.com/articles/s41467-024-46662-5


【文章内容】

如图所示,本文提出了Fast Inertial PoserFIP,它分为两个阶段:1)关节位置估计和2)运动学逆解。与之前的方法相比,该方法效率提升的主要原因如下:1.消除了额外的优化设计; 2.通过考虑人体形状参数,基于“最小测量原则“,仅考虑便于测量的身高、腿长、单臂长和性别,使用运动学逆求解器和不同传感器的共享模型来增强神经网络结构的表达能力; 3.去除RNN的双向传播机制。在位置估计阶段,FIP使用三个独立的循环神经网络(RNN)来估计叶节点和其余节点的位置。 为了使模型推理过程更接近真实的物理过程,FIP使用传感器共享积分RNN来估计叶节点的位置。此外,对于每个 RNN,人体参数信息通过嵌入式编码的方式输入到算法网络中。

1711091386173764.png

FIP算法示意图

网络具体设计如图2所示,主要使用的子模块为单向循环网络RNN和多层感知机MLP,通过将人体骨架信息输入到不同的模块形成人体形状相关的约束。

1711091424139103.png

FIP算法Pipeline

其中,考虑人体运动树结构,基于单帧的运动学反解器的算法设计如图3所示,该反解器能够实现基于单帧的数据来进行快速精准的关节角度解算。

1711092428118157.png

3 运动学反解器


【结果讨论】

与其他同类方法相比,可视化结果对比如图4所示。与其他方法相比,FIP的相关动作都重建得有些许提升,更接近ground truth

1711091587213943.png

不同算法可视化对比图

性能指标对比如表1所示,可以看到FIP在精度重建指标上不逊色于其他方法,甚至在角度相关指标上为最优解,而在部署指标上有大幅提升,在单帧解算时间上只需要2.7 ms,在嵌入式电脑上只需要15 ms延迟并且能实现65 FPS的帧率。

1711091925181629.png

1 不同方法性能指标对比图

应用实例如图5所示。


1711092010180048.png

应用实例


【全文小结】

(1)提出了一种可以在嵌入式计算机上运行的实时(超过 60 FPS)运动捕捉 DNN 方法;

(2)提出了一种基于人体形状输入的关键关节位置回归网络架构的设计

(3)设计了一种基于人体运动树的特殊逆运动学求解器,帮助模型求解当前帧中关节的旋转


【未来展望】

1. 提高重建精度:一种方法是通过结合类似于PIP的优化设计或探索替代的优化策略来继续提高重建的精度。 另一种可能性是考虑引入其他类型的传感器来捕获有关关节运动或旋转的更全面的信息。 例如,使用与全局坐标系对齐的AR眼镜,可以直观地定位其他部位(例如手腕)的全局位置。

2. 引入根节点全局估计:虽然尝试在视频演示中使用人类步态来估计人的位置,但值得注意的是,这种方法本质上并不精确,并且误差会随着时间的推移而累积。 因此,探索集成SLAM等更精确的定位技术,将其集成到VR/AR耳机中以提供更可靠和绝对的定位信息将更有潜力。