VR运动捕捉技术是如何发展过来的？

🤖 由文心大模型生成的文章摘要

这几天，诸多投资人和创业者的朋友圈可能已经被诺亦腾融资两千万美金、估值两亿美金的消息刷爆了屏。

其简单和略带调侃的通告估计会让不少还在创业路上的朋友眼红不已。毕竟诺亦腾在几年之前还是一家默默无闻的靠着自掏腰包上梁山的种子资金起家的企业，手握着一些苦心钻研却不知道到哪里发挥用武之地的关键算法，纠结于自己未来的方向选择（比如因此衍生出来的一个当初的拳头产品，高尔夫挥杆宝）。

要知道这家公司并非在CG和影视行业有过多少年的耕耘，他们当初涉足运动捕捉这个领域也许也是一种试探性的选择，这从他们为角色模型制定的稍显“反人类”的局部坐标系朝向就可以看出端倪来：

成为VR的利器之前，运动捕捉技术是如何发展过来的？

然而，就是这样一个默默无闻地从事着和普通人的生活以及VR产业看似没什么关系的工作的初创公司，却从去年开始引爆了全场，其国内和国际的影响力以及发展前景，恐怕已经远远超过大多数还在苦心钻研VR眼镜和全景内容的人们。

那么，什么是运动捕捉？它又是如何成为整个VR产业飞速发展过程中的香饽饽呢？

且容小弟慢慢道来。

（1）这双手能够触及的地方

运动捕捉（motion capture）就是记录实际运动事件中的一系列空间关键点，并且将它们合并，得到独立的数学参数并最终呈现的过程。

大体上，它相当于是一个将实际的现场表演转换为计算机图像动画的数字表演的过程。这些运动的空间关键点通常应该是机构的轴心点或者生物骨骼的连接处，通过在这些关键点部位放置传感设备或者标识物的方式，我们就可以设法收集到所有用于表达运动的数据，然后将结果数据映射到虚拟的三维角色之上。

一个常见的人体角色关键点分布如下图所示，当然这并不能准确地体现人身上所有大小关节和200多块骨头与肌肉的运动情况，不过对于一般的影视和游戏制作需求来说已经足够。

成为VR的利器之前，运动捕捉技术是如何发展过来的？

这里的头部（head），颈部（neck），脊柱（spine）和臀部（hip）属于人体的中轴线部分，而肩部（shoulder），大臂（arm），小臂（forearm），手部（hand），大腿（upper leg），小腿（leg）和脚部（foot）则是左右对称分布的，总共18个关键位置需要进行记录。更复杂人体角色骨骼的关键点可能还会包含左右骨盆，以及更多的脊柱位置，或者进一步增加对手指和脚趾的运动记录，不过通常并不会有颠覆性的更改。

其他角色的动作捕捉原理也是与此类同的，只是通常我们不一定能找到合适的演员来做现场表演。

那么，如何记录这些关键位置的运动信息呢？这恐怕也是诸多运动捕捉设备和工程所面临的一个核心问题。

（2）从Sexy Robot到猿族崛起

有关运动捕捉的一个众所知之的应用领域就是，拍电影。

《猿族崛起》中威风凛凛的凯撒，显然不可能是训练真的大猩猩去聚众起义，或者按时领盒饭。而《加勒比海盗》中的鬼怪船长和船员，也不可能是与阴曹地府联合出品的。在大量运用计算机图形技术渲染逼真的异型角色的同时，他们的举手投足，音容笑貌，往往就是来自于对实际演员动作的捕捉和重映射。这一过程对于现今的好莱坞大片来说，几乎已经是司空见惯的需求了：

成为VR的利器之前，运动捕捉技术是如何发展过来的？

但是几十年前的动画和影视从业者们却没有这样的条件，最早的动画制作事实上往往是在一种名叫Rotoscope的投影仪器上完成的：

表演者穿上奇装异服摆出一个优雅的动作，然后通过复杂的光学系统投射到一张画布的背面，再由专业的画家将动作描绘到纸上并进行艺术加工处理——没错，就像是小时候的我们喜欢用宣纸去临摹卡通人物一样。

这样辛苦的工作数日也许才能换来一帧的画面，而且也难以表现复杂的动作情景，毕竟幕后的演员不可能保持一招高鞭腿动作太久。

成为VR的利器之前，运动捕捉技术是如何发展过来的？

这之后直到1984年，一个大胆的团队为了应对第二年的美式足球超级碗（super bowl）表演的需求，开始了世界上第一台动作捕捉系统的研究。这套系统被命名为Brilliance，也就是后来的Sexy Robot。

他们最早的组成仅有八人，包括一位负责表演的漂亮而文雅的模特姑娘。拍摄方法是将一些黑色的粘着物粘贴到自己的衣服上，对应于人体的关键骨骼位置，然后用宝丽莱相机从不同的角度进行拍摄，把所有的照片送到当时还颇为庞大和笨拙的计算机中进行解算，再把计算得到的运动数据用于角色的数字化过程当中。这一流程几乎是全手工完成的，只是最后的数字化过程用到了全美国院校的60多台VAX 750（如下图），其复杂步骤和协同化的程度丝毫不亚于直接手绘临摹的程度，而最终的结果对于现在的我们来说似乎稀松平常。不过在那个年代，这样的创举还是引起了一阵轰动。

成为VR的利器之前，运动捕捉技术是如何发展过来的？

这之后的发展便是创造者们所喜闻乐见的，运动捕捉作为一个全新的理念和行业应用登上了历史舞台。比如《The Jim Henson Hour》中的实时木偶动作捕捉，表演者不是别人，正是一个泡沫塑料上镶嵌了传感设备的木偶。它的运动数据相对简单易于在计算机上立即呈现，而木偶本身的操控则由演员通过传统的方式实现。

又比如1988年的Exoskeleton，它通过贴满演员身体的电位计来反馈实时的角度变化，然后传递给计算机进行演算和重映射。

这种方案的机械设施会制造相当让人难熬的噪音，并且因为电位计本身的环境敏感性，往往会受到空调等外界因素的干扰，产生巨大的识别误差。不过既然是在拍摄电影，这点影响因素还是不算什么的。只是时常出现跳变的角色动作，以及逐渐积累的运动误差，反而让电影的后期制作人员叫苦连连。很多误差也许看起来只是走路过程中的“咯噔”一下，或者脑袋发生了不到100毫秒的一个瞬移，但是要在最终版本的影片中将这些影响抹平，却需要耗费相当的人力和时间，有些看起来微小的问题甚至因为无法后期修复而被迫重新来过。

成为VR的利器之前，运动捕捉技术是如何发展过来的？

于是上帝说，要有光，这才有了光学动捕。

（3）光学动捕的桎梏

光学动捕的基本原理实际上与最早的Sexy Robot无异：使用一台计算机来控制多部数码摄像机（CCD）的实时摄制和数据回传演算；

这些摄像机负责捕捉任何地方的反射标记，并配有补光灯用于完善场景的光照环境；

这些反射标记通常被帖敷在表演者身体的关键关节之上，采用具备了很好的反射性能的材质。

多台相机从不同角度拍摄的图像被采集到计算机之后，通过视觉算法过滤无用的信息，再计算出每个标记点的空间位置，进而根据已知的骨骼信息得到关节的旋转角度。如下图就是通过同一个标记点在两台相机画面中的位置，解算出它的空间位置的简单数学表达：

成为VR的利器之前，运动捕捉技术是如何发展过来的？

更多台相机的使用可以有限提高这种计算的精确度，以及避免某些角度下的标记点遮挡问题。

然而，用于光学动作捕捉的摄像机必须具备很高的拍摄速率，例如500-1000帧/秒，并且通常是采用全局快门（global shutter）方案，所有像元同时曝光以确保图像不会有运动模糊的现象。这种技术参数的摄像机显而易见不可能是普通的网络摄像头能够媲美的，其价格通常也是动辄数十万元一部，二三十台相机组成一个完整的动捕环境，再加上专业的标定和输出软件，这样一整套方案下来的咋舌价格自然也就不言而喻了。

基于光学的运动捕捉方案在如今的影视行业已经得到了广泛的应用，演员需要身着满是高反射率标记点的紧身衣服，手持同样扎上了标记点的怪异武器，在场景里闪转腾挪，摸爬滚打，而他的辛苦劳动则会立即反映到导演面前的预演画面（previz）当中，并且通过后期调整最终呈现为似幻似真的电影画面。

成为VR的利器之前，运动捕捉技术是如何发展过来的？

致力于光学动捕方案的国际厂商，无论Vicon，还是OptiTrack，都是默默地在影视行业耕耘多年，参与了无数商业大片的拍摄与制作（包括最新上映的《Everest》，中文译名“绝命海拔”）。

因为光学标记点的卓越适配性，他们的装备早已具备捕捉人的全身关节，手指，以及面部表情的细微变化的能力，而不菲的价格对于那些财大气粗的影视制片商来说也并不遥不可及的成本。

而对于小成本的制作团队，或者希望把动作捕捉用在其它行业和家庭娱乐领域的初创者而言，这类专业设备也根本就是不需要多做考虑的一种阳春白雪而已。直到另一种方案的逐渐成熟，以及一场血腥的价格屠杀的来临。

（4）惯性动捕，异军突起的VR新星

一个完美无缺的运动捕捉系统应当具备以下特质：

实时地跟踪无限个关键点的信息，不受到空间和时间因素的限制，能够以足够高的频率进行数据采样和传输，可能的话还要保证最终结果的误差最小。

光学动捕的原理和相机技术参数可以确保它能够追踪足够多的关键点，并且以很高的频率进行图像采集和处理；

而随着现代计算机硬件水平的不断提高，实时地进行每个标记点的位置计算与动画重映射也是完全可以做到的事情；

最终结果如果产生一定的误差，也可以在下一帧图像识别的过程中得到纠正——这是因为通过光学识别的做法总是能够得到标记点在当前空间的绝对位置坐标，因此不存在任何的累积误差。

当然，要得到标记的正确空间位置，每一台参与运算的摄像机自身的位置和姿态信息也必须是固定的。

如果表演过程中某位送茶水的剧务人员，或者激动得忘乎所以的演员本人撞到了摄像机，导致它的位置发生哪怕一丁点的变化，都不得不叫停整个片场并且重新校准所有设备。这是一个绝对痛苦的过程，不过也是电影人司空见惯的场面，毕竟电影的拍摄是一个CUT接着另一个CUT的，不用预先准备好足够大的场地让博尔特飞奔，也不用真的布置一片浩瀚宇宙让绝地武士再临，更不用在月黑风高的夜里布设实景（都是绿色的摄影棚嘛）。在这种情况下，空间和时间的限制因素也就不那么重要了。

但是如果有这样一种方案呢？它同样可以跟踪很多的关键点，具有很高的采样频率和足够的精度，计算简便而且能够快速回放甚至实时呈现，可以更自由地穿戴和行走自如，白天黑夜想用就用，也不用担心碰到什么奇怪的物事而被迫重新来过……最重要的是，够便宜？

听起来像是臆想，然而这样的大馅饼确实是存在的，那就是基于惯性传感技术的运动捕捉方案。

成为VR的利器之前，运动捕捉技术是如何发展过来的？

传统的MEMS惯性传感设备包括加速度计，陀螺仪，地磁传感器以及大气压力传感器，它的成本非常低（十几块钱的芯片），体积极小（一元硬币），质量很轻（小于一元硬币），输出稳定且不易受到干扰（当然强磁场除外），对外部环境条件的适应性极强（冷热酸甜想吃就吃），而且现在几乎随处都能买到。

这样一组惯性测量单元组合起来，早已被广泛应用在军事和航空领域，例如那个让我们耳熟能详的名词——惯性制导系统。在这个概念的基础上再上升一层，加上GPS的修正，那就快要进入导弹的原理范畴以及TMD和NMD防御体系了。

当然导弹惯导系统中采用的激光陀螺通常精度极高，价格昂贵而且体积也更大，不过这些显然已经不是我们应该关心的事情，虽然笔者对此其实颇有爱好（图中的SDB表示小口径炸弹，然而解释它也并没有什么卵用）：

成为VR的利器之前，运动捕捉技术是如何发展过来的？

而来自加速度计，陀螺仪以及地磁场的XYZ三个轴向的传感器数据值，也就是很多初创者常说的“九轴传感器”的概念了，当然这九个数值直接拿过来并没有实际的价值，还要经过一个名为“Sensor Fusion”的算法进行融合，相互填补空白数据和测量数据误差，有必要的再基于Kalman滤波等常见的数据平滑方案进行后处理（然而这样会造成一定的延迟），进而得到一个流畅连续的三轴方位角度输出数据。

这一运算过程当中如果没有地磁场数据的支持，那么得到的角度值是没有参考位置的，也就是相对于系统启动时刻的角度信息；如果有地磁场数据作为参考，那么就可以得到绝对的世界坐标系角度，然而这一数据往往会受到其它人为强磁场的干扰，包括一些金属制品和大型演出桁架的干扰。

那么能否基于这些数据，得到关键点在空间的位移信息呢？

答案是肯定的，事实上从数学上来说，对加速度值进行积分的结果就是速度，而再次进行积分的结果就是位移了。

其它两个传感器的数据同样可以参与到融合算法当中并补充测量空白，然而——这回就没有可以作为参考的绝对参数了，因为地磁场的数据并不能作为测量空间绝对位置的标准。

这个问题对于所有的惯性控制设备来说都是非同小可的，因为不存在绝对的参考物可以进行反馈和纠正（光学动捕的时候只要摄像机姿态不变，就可以知道下一帧图像在相机参考系中的位置信息），因此每次测量结果的微小误差会逐渐进行累积，最终让原本稳坐钓鱼台的角色平地飞起，或者让飞向太空的火箭跌入阴沟。

导弹惯导系统是可以主动修正位置的误差的，因为有GPS辅助定位；然而放到惯性动捕的设备当中，却显得回天乏术了。不过这并不妨碍Xsens以及其他厂商将他们的产品买到世界各地，因为大多数情况下，拍摄电影的人并不会移动得那么远；而惯性动捕方案的超低廉成本和简便成熟的处理流程，以及完全实时的数据计算和回传机制，则会让更多小成本的团队趋之若鹜。

这也就是Xsens敢把全套动作捕捉设备卖到46万上下的原因，也是诺亦腾敢把专业动作捕捉系统从28万一套卖到10万一套的原因。光学动捕的厂商就算气得牙齿痒痒，也只能在精确性和专业性上大做文章，却绝对不敢冒死大打价格战，因为他们的成本确实不可能降到那种程度。

然而诺亦腾还有更狠的杀招，没错，就是PERCEPTION NEURON：

成为VR的利器之前，运动捕捉技术是如何发展过来的？

从官网的截图来看，居然已经不到1万元人民币（实际国内售价应当在1万6左右）？这无疑是让众多以影视动捕为生的国际大厂气到半死的价位了，原来你们拿惯性动捕还能这么玩（往一起死的节奏压价）！而传统IMU装备（即前文所说的惯性测量单元）制造商则高兴到跳起来，原来他们拿惯性动捕打算这么玩（作为民用外设量产）！而这也引爆了正在为交互手段匮乏而颇感迷茫的虚拟现实（VR）产业，原来我们拿惯性动捕可以这么玩（这是交互手段新纪元啊）！

动作捕捉作为VR应用以及游戏的一种外设，它的价位已经到了可以飞入寻常百姓家的地步，这也正是诺亦腾如今受到热捧，以及无数人眼馋，无数人开始奋起而追击之的真正原因。

那么对于那些期待着VR纪元的新新人类来说，这样的全副武装是否就是未来游戏的标配了呢？

（5）武装到牙齿的新新人类？

低成本惯性动捕方案的提出，以及投资人对相关企业和前景的充分肯定，无疑已经引燃了更多人的好奇心和进取意志。然而这类方案距离推向家用市场还有多远，却还是要画上一个巨大的问号。

首先是穿戴的问题。

诺亦腾的专业版本（PERCEPTION LEGACY）采取了无线IMU模块和绑带的方式，这样方便携带以及演出现场的穿戴（毕竟大演员有几个助理通常不是什么稀奇的事情），然而对于一般家庭来说，十几个独立的麻将牌大小的模块和看起来无比复杂的佩戴手册，必然成为他们快速进入游戏角色的一大壁垒。

并且这种基于2.4G网络的无线传输方式，对于现场网络信道环境，电池管理，以及数据延迟等问题都提出了更高的要求，就算是在场馆或者展会中使用，也会面临诸多不得不由专业人员去把关和解决的问题。

当然我们也可以使用有线版本的NEURON，不过身体的大幅度运动可能对线材本身以及各类接插件造成松动影响，进而直接影响了通讯质量，同样也是值得开发者们头痛的难关。

成为VR的利器之前，运动捕捉技术是如何发展过来的？

第二个问题就是标定，因为IMU模块的实际安装位置不可能每次都精准匹配，因此必须首先进行标定然后使用。

这里所说的标定就是让穿戴设备的人摆出一个固定且标准的姿势，计算机在已知这个姿势的前提下去反向计算当前IMU的姿态数据，并作为它们的初始数据来辅助后继的运动解算。依然以诺亦腾的设备为例，它目前采取了三步标定的方法：

成为VR的利器之前，运动捕捉技术是如何发展过来的？

这样的过程对于影视拍摄的前期准备来说毫无问题，但是当推向家用之后，是否依然需要玩家每次做出这样的动作来进行场景的预置，也许就值得商榷了。

而最后也是关键的问题，就是误差。

正如我们之前说过的，因为无法进行有效反馈而累积的位移误差，以及可能存在人为磁场和金属设施而产生的地磁和角度误差。这样的问题倘若影响到游戏的交互本身，无疑也会让一般用户对于产品的品质和易用性印象大打折扣。

当然，还有一个市场层面的隐性问题存在：

诸如全身动捕这种重度的游戏体验，真的可以让更多普通人接受，进而步入千家万户吗？

这也许对于整个行业来说都还是一个混沌的话题，然而也许只有不断地发展自己才能最终找到答案。

当然了，水面不平静，水下更是波澜起伏。

在诺亦腾大放异彩的同时，蠢蠢欲动的追赶者们也已经露出了自己的獠牙：老牌的惯性动捕劲旅Xsens同样放出了令人垂涎的低价和无线版本；诸如Gwearables和南京布塔这样的国内厂商也吹响了自研动捕甚至全套VR装备的号角。而有关光学动捕无法大幅度降低成本的定论也正在逐渐松动当中，诸多潜心发奋的初创者们已经间接或者部分地证明了低成本光学动捕的可行性，也许就在不远的将来，基于普通网络摄像头和廉价红外标记服的光学动捕设备也会猛地浮出水面。那个时候，是否又会是一阵行业内的血雨腥风呢？

然而这也并非一片坦途的乐土，VR行业本身还在一片冻土迷雾当中。任何人与任何企业，现阶段都只能触摸它的冰山一角。是将自己的触角深深扎根，牢牢抓住行业传统用户，从用户体验和精确度上多做文章，成为坚定而稳如磐石的设备供应商？还是现在就四面出击，把听到看到和自己想象出来的一切领域需求都吞入囊中，成为大而不实的VR布局者？也许每个人都会有他自己的选择和答案，并无对错之分，只是未来总会有生死之别。

无论怎样，都请加快脚步为好。

成为VR的利器之前，运动捕捉技术是如何发展过来的？