## VR 中的交互之熵
文/王锐
### 蒙住双眼看世界
从2014年 Facebook 收购 Oculus,高调宣布布局虚拟现实行业的那一刻开始,VR(Virtual Reality)这个词逐步从一个尚不完整的概念进化到席卷全世界的风潮。不仅三星、谷歌、微软等行业巨头先后投入巨大的人力物力来进行技术和消费端产品的研发,更有数以千计的初创公司将 VR 作为自己的目标。无数的创业者都试图在这个看起来还没有太多人去开垦的处女地上刻下属于自己的印记,或者更进一步,建立属于自己的帝国,成就独步天下的梦想。
图1 扎克伯格在2016 MWC,从容走过戴着 Gear VR 的观众群
诚然,梦想没有对错。VR 给予了人们一种全新的画面表现方式,能够让普通人沉浸在虚拟的场景当中,置身于充满了幻想与渴望的异世界,从而产生强烈的代入感——这也确实是一个潜力无限的市场需求。然而,这是建立在两个重要的技术基础之上的:一是画面的清晰度和表现力;二是交互手段的完整度和合理性。
对于第一点,本文并不想再做赘述,现有的画面渲染质量虽不完美,但是基本可以接受;而屏幕的分辨率、刷新率、FOV 等指标,也随着 OLED 技术的革新和逐渐量产而变得可期。我们完全可以相信,在3-5年之内,90%的用户将完全接受 VR 头盔所提供的画面的真实度,即使它并不一定能够完全达到“视网膜屏”的颗粒水准。
而对于第二点,笔者认为它恰恰就是 VR 行业发展所面临的最大阻碍,也是目前优质的 VR 内容缺失、体验者兴趣寥寥的主要原因。2017年以来,VR 行业的投资热潮开始冷却,大量投身到 VR 内容和应用制作的开发者和公司面临各种转型压力,很多人开始尝试选择另外一条道路,对外宣称是“To B”端业务,也就是针对商户和企业服务,而非最终消费者的业务。这一方面可能是市场从过热到退烧的正常过程,另一方面也正体现了越来越多的人产生的一种危机感:VR 的杀手级应用到底存在不存在?为什么我极少见到好玩甚至只是可玩的 VR 游戏?
这也正是本文试图阐述的核心问题所在。
### 基本的交互需求
在探讨交互的重要性之前,我们不妨先了解什么样的游戏是现今最受欢迎的,以最近 Steam 游戏平台上最热销的几款作品为例:
1. 《绝地求生:大逃杀》是一款开放世界的大逃杀游戏,每局有100人参与,利用地形和有限的资源战斗,最终只有一人能够存活。与之类似的还有《H1Z1》。
2. 《GTA V》是一款开放世界的动作冒险游戏,其中拥有几乎与现实世界相同的世界观,玩家在场景中的所有操作几乎都可以获得反馈。
3. 《反恐精英:全球攻势》是一款第一人称的网络射击游戏,游戏者分为两大阵营在各种地图上进行多回合的对战,具有丰富的竞技元素和排行系统。
4. 《The Witcher 3》是一款第一人称的单机角色扮演游戏,具有完整的世界观和巨大的开放世界可供探索,游戏剧情时间超过100小时。
5. 《Dishonored 2》也是一款第一人称的单机角色扮演游戏,玩家在自由度极高的开放世界中完成各种暗杀和寻宝任务。
图2 《GTA V》游戏截图,它支持多人在一个巨大的开放世界中游戏,并且有丰富的剧情和场景互动元素
我们不必列出更多的热门游戏名称,也不必列出那些以奇巧取胜的冷门游戏,或昙花一现的作品。从上面几部作品已经可以看出,能够受到众多玩家欢迎的主流 PC 游戏类型,大致具有这样几个特征:开放世界;高效反馈;丰富的剧情;以及(可选)多人对战。
开放世界意味着需要玩家在一个极为广阔而物产丰富的虚拟世界中自由跑动;高效反馈是玩家可以通过各种方式与场景中的元素进行互动,例如对话、触摸、组装、调查、攻击、拆除等,而它的不同操作总会产生不同的效果;游戏剧情的丰富也正是构建在这两点之上;至于多人对战的支持,则进一步为游戏过程增加了无穷尽的不确定性,并且与互联网经济和社交理论无缝结合,产生强大的用户粘性。
事实上,这与 VR 诞生之初的期望是不谋而合:仿佛置身于幻想的世界中,自由地挥洒自己的力量,经历闻所未闻的故事,以及与网络另一端的冒险者不期而遇……换句话说,现如今最火爆的游戏类型,原本就是可以 VR 化的,只是市面上可见的大部分 VR 游戏根本没有做到这一点而已:单机过关类游戏成为主流、玩家被固化在原地不动、交互方式违背自然规律、游戏中各种操作的学习成本飙高……这是因为决策者的短视?内容开发者的能力不足?还是其它的原因?
图3 Steam 平台排名第一的 VR 游戏《Tilt Brush》,本质上更像是一个艺术创作工具
### 武装到牙齿的原始人
VR 领域交互硬件和交互方式的变迁,从一开始的赤手空拳,到现在可以用武装到牙齿来形容。首先,VR 头盔本身就带来了一种全新的交互体验,基于人的头部运动来实时改变画面内容,从而构成一种全沉浸式的观感效果。我们观察世界的视角是随着三自由度的头部旋转运动而改变的,因此需要一种精确而灵敏的传感设备,来获取每时每刻的旋转角度,它被称作惯性传感单元(IMU)。
一个 IMU 通常包括一个三轴的加速度计和一个三轴的陀螺仪(测量瞬时的角速度),即常说的六轴传感器;为了确保测量时使用统一的参考系,绝大多数 VR 头盔还会增加一个三轴的地磁传感器来获取地球磁场的方向,即 AHRS 系统,亦有大量文献称之为九轴传感器。这其中,单一的某个计量元件并不具有很高的精度和稳定性,但是将三个元件的输出数据结合起来,互为补偿的话,可以确保得到的姿态数据是准确的。这一过程被称作传感器融合(Sensor Fusion)。传感器产生的数据在使用过程中需要随时校准,否则会逐渐积累越来越大的误差,因此诸如 Oculus 这样的硬件设备,会推荐额外的 Sensor Camera 来辅助完成校准的工作。
图4 IMU 测量物体的姿态信息,并通过欧拉角或者四元数的方式传递。图片来自:https://en.wikipedia.org/wiki/Inertial_measurement_unit
只有这样简单的交互显然是不够的,初期的 VR 应用因此也只限于观看视频,或配合键鼠和游戏手柄这样传统的 PC 游戏设备来进行游戏。对于这个阶段的大多数创业者来说,要在此基础上创造出新的交互手段,或者尝试去模拟人的自然交互方法难度都是极大的,一个捷径是利用已有的一些技术,将它与 VR 相结合创造出新的应用场景。这其中一个典型的例子,就是动感座椅。
动感座椅的基本原理是采用钢结构支撑,三台或者六台电机驱使传动系统让平台产生三自由度或者六自由度的运动,从而模拟驾驶汽车、飞机、船舶或者遭遇地震等现象时的震动效果。传统的 4D 影院就是构建在这个基础之上,之后衍生出的 5D、6D、7D 等名词,则多是在此基础上增加一些外部反馈的手段(例如水雾、热气、自动刷子扫观众的腿等),提升反馈种类和效果,并无根本性的改进。而至今仍然在各类购物场所和体验厅中流行的 VR 蛋椅、VR 坐骑、VR 魔毯、以至 VR 大坦克车种种,也没有超出这个范畴。
图5 VR 搭配动感座椅实现逼真的运动反馈效果。 图片来自:https://vrperception.com
不过这种座椅震动反馈的交互手段确实带来了商机,因为 4D 影院本身已经是一个受欢迎的娱乐品类,在此基础上增加了互动内容和全沉浸式的体验方式,无疑会让更多的人热衷于尝鲜。而这也是从2015年开始 VR 从业者大踏步前进的第一个里程碑。
而第二个里程碑,是2016年 HTC VIVE 套装的推出,可以说,它带来的影响是深远的,某种程度上远超过之后推出的 Oculus Rift 和 PSVR。HTC VIVE 一定程度上确立了两个 VR 应用必备的交互手段,双手手柄和小范围运动。
通过两个名为 Light House 的激光发射器,HTC VIVE 可以构建一个大约3-5米见方的运动范围,在这个范围内,Light House 系统可以随时识别到用户的头盔和双手手柄的姿态和位置;换句话说,在 VR 应用当中,用户也可以随时知道自己的头部和双手处于何处。将用户的双手运动还原出来,从而可以识别和实现之前所述的一系列自然交互操作:触摸、组装、调查、攻击、拆除……这一过程也可以被称作运动捕捉(Motion Capture)。当然它只能够捕捉双手和头部的准确运动信息,其它肢体的动作只能依靠进一步的推算得到;然而这个推算得到的解通常是无穷多个,因此算法所选择的解有时也是扭曲的、搞笑的,好在多数情况下这样无伤大雅。
图6 知名 VR 游戏《Raw Data》中也可能出现角色姿态解算错误的情况
为了完整还原用户的身体姿态,一些踏足 VR 领域的企业也选择全身运动捕捉作为终极的解决方案。诚然,这样得到的虚拟角色动作和真实的玩家动作几乎完全一致;但是又有点矫枉过正之嫌:为了得到全身运动的信息,需要在使用者身上设置多个检测单元(可以是 IMU,也可以是光学捕捉专用的反射球),而这样大大加剧了普通玩家进行游戏时的负担,并且整个系统的安装和维护成本几乎难以承受(光学捕捉需要在场地中布设大量的摄像头设备)。尤其对于最终消费者而言,为了一个闲暇时的消遣放松游戏,还需要先完成一个十分繁琐和专业的穿戴过程,而这个过程可能比真正游戏的时间还要长,显然是当前难以接受的一种交互手段,尽管从结果上来看,它足够完美。
图7 众筹的惯性运动捕捉系统 PrioVR 需要相当复杂的步骤才能完成穿戴。图片来自:http://browsetechnology.com/priovr-the-full-body-wearable-pc-gaming-suit-that-loves-your-limbs
VIVE 交互方案的另外一个问题,在于它能够有效表达的运动范围太小,基本是半个羽毛球场地或者一间狭小密室的大小。对于开放的超大空间的需求来说,这实在相距甚远,因此聪明的开发者们设计了一种“跳跃前进”的行走方式,即沿着手柄方向绘制出抛物线,抛物线落地的位置就是玩家本次运动的终点,松开手柄后玩家瞬间到达这个位置之上,实现行走。
图8 使用 VIVE 手柄实现空间中的瞬间移动(Teleport)。图片来自:http://through-the-interface.typepad.com/through_the_interface/2016/11/autodesk-live-in-the-vive.html
瞬间移动的方案对于一些强调主角超能力的游戏主题来说也许很酷,但是对于其它大多数游戏类型来说显得格格不入。而如果改成主角缓缓走向终点,则会产生另一个严重的后果,就是晕动症:在玩家本人并没有明显运动的情况下,他所控制的虚拟角色却一直在运动并且导致视野内的画面一直在变化,使人产生晕眩和恶心的后果。
这个矛盾直接导致了一些依赖于 HTC VIVE 的 VR 开放世界游戏的尝试受挫,大部分玩家难以接受这个跳来跳去的设定,很多时候这会导致他们的空间感丧失,游戏的乐趣也锐减。因此,更多的开发者开始把目光集中在空间定位的方案上,因为只有这样才能实现VR游戏中的自由行走交互,也只有这样他们才有可能向各类流行的沙盒游戏看齐。
空间定位的方案,一时间四面开花。这其中最常见的就是基于光学运动捕捉系统的简化定位方案,在一个大场景中布置足够多的全局快门红外摄像头(同时还需是高清,高帧速率),通过事先标定的过程来确定每个摄像头在空间的位置和姿态;然后游戏者的头顶、双手或者武器上固定有多个高反射率材质的小球。小球在摄像头画面中非常明显,易于识别它的坐标。只要同一个小球能够被不止一个摄像头检测到,那么系统就能立即计算出它在空间的真实位置;而玩家(甚至是很多个玩家)的空间位置,以及双手的一举一动,都可以实时高效地获得。
图9 光学定位/光学运动捕捉方案,图中红色圈出的部分均为固定位置和姿态的跟踪摄像头。图片来自:http://www.lighthouse.org.uk/programme/motion-capture-lab-2013
从原理上来说,这是一个完成度很高的技术方案:可以用在大空间场景,支持多人多位置的识别,并且效率很高,视觉算法完全可以在嵌入式系统上实现。但是在实际应用中,这个方案用到的摄像头成本昂贵,安装和维护过程复杂,标定需要的流程过于繁琐且专业,以至于并没有人真的能够将全套光学捕捉的方案扩展到上千平米的大空间;此外它也很容易受到外界环境的干扰,不能有太阳光射入,游戏场地必须是一个广阔的地下车库一样的场景。这些都限制了光学定位方案的应用场合,让它多半只能出现在预算宽裕的主题游乐园和体验馆里。
不过对于雨后春笋一般的体验馆来说,不断更新的大空间多人定位方案并没有什么显著的问题,相反它通常是一个很好的爆炸点,可以一次又一次吸引公众的视线,让人们觉得杀手级的 VR 应用即将到来。
不过直到现在为止,除了少数被认为是制作相对精良的游戏 DEMO 之外,并没有公认的杀手级 VR 游戏出现,无论从销量还是知名度上。这也是2017年一直弥漫的悲观情绪的源头。
### 殊途能否同归?
从愈发完善的 VR 头显,到炫酷的动感座椅和模拟器,再到开放世界的多人大空间行走方案,以及通过手柄或者运动捕捉系统对自然交互和回馈机制的模仿,VR 从业者的素质和技术都达到了一个令前人诧异的高度,而正是因为这种对于自然交互方式的执着,让很多人也许偏离了“制作一款游戏”这个原本的目标,而是沿着另外一条道路——展览和展示的道路——扎实迈进。没错,无论是通过动感座椅产生的交互反馈,还是通过运动捕捉和定位系统来实现自然动作和空间行走的交互模拟,本质上都需要一定的场地空间、维护成本、以及客制化需求来实现某个特定的体验目标。这个目标可能是吸引场馆的客流——而单纯 VR 体验店很难独立制造出流量,必须绑定现有流量,也就是与景区、科技馆和主题公园的内容更新相结合。
例如已有的一些成熟产品:VR 模拟驾驶、VR 过山车体验、VR 碰碰车、VR 独木桥等,它们本身并不能称为一个完整的游戏或者应用,而是为了辅助、加强传统游乐项目的价值而存在的。然而这样的体验产品不管在技术还是实际运营上面,成效都是不错的;这就不是消费者端的平台,例如 Steam 之类,能够反映出来的了。
图10 广州奥亦未来乐园推出的“VR 碰碰车”体验,将 VR 与传统游乐项目顺畅结合。
图片来自:http://news.ycwb.com/2016-12/25/content_23869515.htm
由此引发了一个非常有趣的议题:我们究竟在做什么样的 VR 应用?2015年的我们言必称“VR 改变世界”,因为在大多数人看来这是一种超越时代的科技创新,只待与之对应的交互方式普及,和杀手级的应用诞生。2017年的我们仿佛望见“VR 热潮已过”,却不见越来越多的公园和景区开始使用这种全新的展示形态,结合已经被许多开发者深耕过的交互手段,来实现变现的目标。与其说 VR 不再成为热点,开始没落,倒不如用一个更准确的动词来形容:VR 的价值正“溶解”到展览和游乐行业的细节需求当中,逐渐成为一种值得推崇的内容表达手段;而人们为了做出最好的 VR 应用而研发的种种交互方式,也融入到真正的客制化需求当中,不再局限于第一人称视角的游戏应用。
图11 苏州神秘谷科技公司将自身的 VR 定位方案结合到传统规划/科技馆项目当中,构建了全新的“多屏幕跟随互动方案”
回顾我们一开始提出的问题,“VR 的杀手级应用到底存在不存在”?真正的答案也许变得难以捉摸。因为曾经研究交互方法创新的人们,一部分正将自己的优势融合到其它的领域中去,发挥价值和变现能力,他们也许已经制作了足够优秀的作品,只是难以成为普通人家中的陈列收藏。另一部分人则正在追寻 VR 交互的本质核心,希望用统一的硬件和 API 标准(例如 DayDream)去指导内容团队的开发方向,而不是迷乱在无穷尽的可能性当中,最终求得与消费者的潜在口味相合。两者之间,并无显见的正谬之别。
VR 并不是一个独立完整的领域学科,而是各行各业表达可视化信息和自身诉求的一个窗口。VR 的交互需求也不应当无止境地趋近于人的自然感知体验,而是应当在某个节点上产生明确的分支:在基础交互手段之上大量普及内容?亦或在先进和丰富的交互手段之上完成客制化的目标——至于这两者能否在未来殊途同归,产生一个集大成的震撼作品?目前恐怕没有人能够说的清楚。
而本文的标题“交互之熵”也正是混沌于此。幸而并非“交互之殇”。希望不灭,只是前路漫长。
### 在黑夜里摸索前行
VR 行业这两年的火热,吸引了不少创业者投身于此,其中懵懂者、夸大者、投机者、欺诈者都不在少数,他们最后的结果免不了黯然退场;留下来的多是立志深耕于此的勇士,以及眼光长远的业界巨头。说到底,如何做好 VR 应用,这不仅是一个技术问题,也是一个商业思维的问题。VR 行业既有需要借鉴和学习传统行业的地方,也有需要跳出原来思维定式的地方;而如何把握两者的平衡,不受到各种风口新闻的诱导,这是大多数从业者真正需要学习和具备的素质。
从曾经每天火热的报道到如今临近冰点的观望,从业者应当看到的是变化的趋势,并非简单的退潮。这其中会不会有某个爆发点出现?会不会因此让媒体和投资人再次把重心转移至此?会不会恰逢良机促成了 VR 在全民之间的普及?我们不知道,只有摸索前行。冷静去思考,我们会发现也许本来就不该有这种异样的爆发,而是应当亦步亦趋地研磨自己的手爪,踏实自己的脚印。
畅想未来的时候,我们也许会期望每个人都戴上头盔进入 MATRIX(电影《黑客帝国》中的虚拟世界)的一天;但如果只是展望不远的将来,我相信 VR 技术和 VR 所带来的种种交互革新将会无处不在,但是它也许在普通人的心中,依然默默无闻。