镁客网张培青演讲实录:从VR发展看关键技术的变与不变
2016年11月3日,在上海工博会IC咖啡举办的VR/AR沙龙上,镁客网创始人张培青发表了题为《从VR发展看关键技术的变与不变》的主题演讲。张培青表示,只要是能够提高VR沉浸感的技术,都可以成为VR的关键技术。但随着VR的发展,对单一技术的要求越来越高,而且某一个单一的技术已经很难满足要求,往往需要多个技术的结合,VR的关键技术将从单一走向整合,同时VR关键技术的变化也必然会推动整个VR行业的健康成长。
以下是镁客网张培青的演讲实录:
首先感谢IC咖啡举行这样一个好的活动,也非常荣幸到现场给大家做一个分享。刚才有嘉宾做了全景相机有关的分享,非常有意思的是我今天分享的内容中有一部分就跟全景相机涉及到的全景拼接技术有关,非常巧。我今天分享的主题是《从VR发展看关键技术的变与不变》,要讲的重点就是VR的关键技术,但在之前我们首先回顾下VR目前的发展。
从Facebook收购Oculus起,VR已经走过了2年多的道路,也经历了很多变化,但从最近来看,VR的发展越来越明显的呈现出toC转向toB的趋势,为什么这么说呢?我们从下面三个维度来看。
首先是创业者的变化。我们发现,从2014年到2015年进入VR进行的创业者中,很多都是做VR头显等硬件的,但到了2016年,新进入VR的创业者,做硬件的已经很少了,很多都是做VR内容或者行业应用的。像我们耳熟能详的一些VR公司,比如暴风和蚁视,他们是典型的硬件公司,都是2014年开始做的,在这之后,我们已经很少听到新做起来的硬件公司了。
其次看一下VR公司的现状。还是拿上面提到的暴风和蚁视为例。暴风前阶段陷入了裁员的风波,几乎裁了一半人,然后公开宣称将进入行业应用方向,如旅游、房产、教育等。另一家公司蚁视,则在10月举行的发布会上表示将从硬件公司转型成为一家生态公司。无独有偶的是,在近期国内外的展会上,比如国内很火的CJ,新涌现出来的做硬件的公司,如幻维和HypeReal等,无一例外表示自己也做内容和行业应用,几乎没有单纯只做硬件的公司。
还有就是投资的变化。我们从这张图上可以看到,从2014年到2016年,VR硬件的投资在2015年的时候迎来一个高峰,但在2016年的时候明显下降。当然,这里可能也有资本寒冬影响的因素。但不争的事实上,在同样的情况下,VR内容的投资在2016年明显上升,甚至超过了硬件。这说明资本的风向开始从硬件转向内容。一些著名的投资机构,比如国内的纪源资本就公开表示,2016年的投资重点将放在内容和IP上,其次是新商业模式和行业应用,基本不会再看硬件项目了。
从上面这三个维度,很明显的可以看到VR发展从toC转向toB的这样一个趋势。但我们也知道,一个行业真正爆发,仅仅靠toB是不够的,还是需要海量的C端用户。当然,VR在C端爆发的时候形态也一定不是现在这样的,可能会跟AR有所结合,这个是另外的内容了,今天就不详细讲了。那么,是什么限制了目前的VR在C端市场没有达到预期呢?我们认为,关键技术的瓶颈是一个很大的因素,这也是今天我要讲的重点。
VR有哪些关键技术呢,首先是图形渲染。关于图形渲染,做设计的可能比较熟悉,我们看这个左边的图,他是一个框架,框架设计好以后,想要实现跟右图现实场景中一样的效果,就必须得经过渲染这样一个步骤。同样的,存储在计算机里的数据都是坐标数据,想要在屏幕上显示出来,必须把这些三维坐标数据实时的构建出能够在二维屏幕上显示的3D效果,这就必须经过渲染。现在一些高端的VR头显,比如HTC Vive,或者Oculus的,它们的显示效果非常好,但代价就是渲染的计算量非常大,往往需要一台配置非常高的电脑,甚至上万。但是普通消费者又有多少为了仅仅体验VR就去买一台上万的电脑呢?这是很少的。所以这个直接制约了VR的普及。而一些稍微低端一点的头显,对电脑性能要求可能没那么高,但往往效果很难令人满意。所以,从这个角度来说,摆在Intel、Nvidia等做硬件渲染技术的大厂面前的,就是如何在保证效果的同时,尽可能的降低硬件的成本。
全景拼接技术。全景拼接技术可能大部分人平时接触的比较少,但做VR内容和全景相机的会比较熟悉,它是全景相机的关键技术。现在全景相机,一般都有4个,甚至6个、8个、12个摄像头,通过这么多的摄像头捕捉到每个方向的图像后,必须经过全景拼接才能得到最终的 VR全景 视频。像刚才说的,那么多的摄像头要实时得到拼接后的 全景视频 ,它的计算量是非常大的,所以目前的一些效果好的全景相机售价非常昂贵,像诺基亚的Ozo,价格高达30万。一般的VR内容生产商很难去花这么大的代价,这就导致目前VR内容的缺乏,而内容是VR行业繁荣的关键。当然,也有一些稍微低端一点的全景相机,但往往在拼接效果上很难让人满意,自然也无法产生好的内容。
眼球追踪技术。眼球追踪技术最早其实不是用在VR上的,而是为了渐冻人症开发出的一个技术。像我们熟知的霍金,就是渐冻人症患者。他的身体无法运动,眼球追踪技术可以让他通过眼球的运动来和外界进行交互,甚至交流。放到VR上,这个技术对于VR游戏的体验也是革命性的。我们设想一下,你在玩VR游戏的时候,就拿射击游戏举例,你甚至不需要任何外设,只要盯住目标2秒钟,一个导弹就自动射向目标,这是非常棒的体验。但这个技术目前也存在问题,就是往往图像的渲染速度跟不上眼球的移动速度,就会造成明显的延时。Nvidia目前正在研究一个新的局部渲染技术,只渲染眼球注视的位置,其他位置不渲染,后者模糊化处理,尽可能的降低计算量,但目前这个技术还不成熟。
动作捕捉技术。和眼球追踪技术一样,在VR之前,动捕技术就已经用在了影视动画行业。像一些我们熟知的科幻大片,如阿凡达、指环王等,都是通过动作捕捉技术来实现的特效。动作捕捉技术包含了面部表情识别、肢体动作设备、步态识别等多个范畴,它的核心点在于采集了人的动作之后,在三维场景、虚拟场景中重构出来。所以用在VR上以后,体验者在虚拟世界中不光可以看到,还可以与虚拟世界进行交互。拿刚才说的影视动画行业应用广泛的动捕系统来说,美国的OptiTrack采用的红外方案,首先需要穿上布满定位点的外套,然后通过周围一圈布置的高帧率红外摄像机捕捉图像,通过计算机视觉的方式来计算出被拍摄者的动作。这种摄像机的成本是非常高的,像刚才说的,只有一些财大气粗的影视公司才能接受,在VR行业很难普及开来。所以一些公司,包括国内的诺亦腾,就推出了基于惯性的动作捕捉技术。这种技术和无人机里用的定位技术是一样的,都是基于九轴传感器。它最大的优势就是成本相对红外来说要低很多。但是这个方案也存在问题,就是精度,惯性定位存在零点漂移问题。你站在原点不动,在虚拟世界中得到的坐标位置会出现抖动,而且随着时间的推移,误差会越来越大。目前这个问题没有太好的办法,一些小的创业公司,包括像南京的布塔,就在致力于解决这样的问题。这里对创业公司来说一定是存在机会的,关键在于怎么样在降低成本的同时尽可能的提高动作捕捉的精度。
下面是大家耳熟能详的空间定位技术。大家知道,Oculus是第一个推出VR头显的,但自从HTC推出Vive后,国内外大大小小的展会搭建VR体验区的那些厂商,基本上优先都是考虑的HTC的设备。这是为什么呢?很大程度上就因为HTC的空间定位技术。在一个Room-Scale的空间里,用户可以自由走动,这种走动会实时的反应在虚拟世界里,这对于VR体验可以说是让人非常惊艳的。HTC的定位技术是基于激光的方案,边上搭建两个激光的发射器,在人的身上,或者说定位点上放置接收器,通过激光的发射接收来进行定位。激光的移动是通过机械结构来控制的,随着时间的推移逐渐磨损后会出现误差。所以后来Oculus和PS VR推出的定位技术都没有基于激光的方案。Oculus采用的是和之前提到的OptiTrack一样的红外方案,像最近它还推出了一个单发射器的方案,有点像微软的Kinect,但存在的问题就是范围太小。PS VR基于的是可见光方案,它要在定位点上放一个彩色的球,通过普通摄像机基于计算机视觉技术进行识别定位。由于它是基于可见光的,所以当环境光线太暗或者太亮就会出现定位精度下降等问题,也就是容易受环境干扰。所以综合来看这些空间定位方案,暂时还没有一家能够拿出一个非常完美的,跟刚才的动捕技术一样,怎么样去解决这样的问题,就是留给创业者的机会。
最后提一下数据压缩技术。现在一些效果比较好的高端VR头显,像HTC Vive、Oculus Rift等,都是基于PC的,而且由于传输数据量大的问题,它需要连一根线到PC上,这导致用户在体验VR的时候非常不方便,特别是有了空间定位后的沉浸式体验上。如果数据压缩技术能够有突破的话,实时数据就可以通过无线传送到PC上,用户就不会再受到线的牵绊。还有一些关键技术,这里就不多加讲述了。
上面说了那么多VR涉及到的关键技术,不知道大家有没有发现一点,就是不管什么样的技术,围绕的都是如何去提高VR的沉浸感,这个是VR最关键的一个点。换句话说,只要是能够提高VR沉浸感的技术,都可以成为VR的关键技术。这就是VR关键技术的不变。但随着VR的发展,这些技术也呈现出了一些变化。
首先是对单一技术的要求越来越高。比如随着VR游戏的发展,用户对画面的要求越来越高,一些游戏大作对渲染的计算量要求与日俱增。如何能够同步保障用户的体验,这就对渲染技术以及数据压缩技术提出了更高的要求,技术的提高速度必须快于用户需求的提高。又比如VR刚开始的时候,像HTC Vive那样能够实现位置追踪的硬件非常惊艳,但是随着技术的发展,可见光定位技术、红外定位技术的应用,小范围的位置追踪已经成为高端硬件设备必备的一个功能。这个时候,随着行业的发展和人们认知度的提高,逐渐发现仅仅是room-scale的单人追踪体验已经没办法满足需求了,体验者希望能够有更大空间范围的沉浸感体验。这也是目前像HTC、Oculus等标配的空间定位技术没办法满足的。
其次是某一个单一的技术已经很难满足要求,往往需要多个技术的结合,也就是从单一技术应用走向整合。拿刚才说的空间定位来说,有了更大空间的追踪体验后,对其他方面的体验也会提出更高的要求,用户希望在虚拟空间中不光能够看到和移动,还要能够摸到,甚至能够看到其他参与者在虚拟世界中的形象。如非常受欢迎的密室逃脱、真人CS等游戏体验,除了需要有更大空间的定位外,还需要有对多人交互的支持。所以如国内做惯性动捕方案的诺亦腾,将其动作捕捉技术与光学空间定位相结合,推出了大空间的可以用于多人交互的VR解决方案,在一定程度上能够满足用户对于这种更深层次体验的需求。但这样一套包含10多个摄像机、能够支持大空间4-6人交互的方案售价依然非常昂贵,甚至达上百万。类似这样的方式还有很多,对于创业者们如何将各自擅长的技术结合起来更好的去满足用户需求,并且尽可能的降低成本,也是技术发展的过程中留给创业者的机会。
VR的发展决定了对技术的高要求,同时VR关键技术的变化也必然会推动整个VR行业的健康成长。今天我的演讲就到这里,谢谢大家!