2015年1月,微软发布了其自主研发的全息智能眼镜Hololens,这款眼镜与市面上虚拟现实眼镜及增强现实眼镜有很大的不同,它可以通过识别周围环境和用户的动作,通过See-Through的全系波导显示方案,给用户带来全息的视觉体验。Hololens于2016年第1季度接受开发者预定,并于第2季度陆续发货,其售价为3000美元。
抛开Magic Leap等神秘黑科技不说,Hololens可以说是目前体验最好的一款AR和MR设备了,从它的名字上就可以看出微软的野心,Holo是全系的意思,lens是镜片的意思,微软并没有跟风Google glass,叫Microsoft glass或者Hologlass,因为Glasses是框架式的眼镜,Contact lens是隐形眼镜,这么一看,lens就比glass高大上了很多。随着光电技术的发展,显示镜片也许真的就和隐形眼镜一样了,由此可见Hololens格局就比Google glass大了许多。
Hololens硬件构成
Hololens全系智能眼镜以及适配器、Micro USB数据线、备用鼻托、Clicker、说明书、眼镜布等配件。
Hololens硬件平台采用Intel X86 32位处理器,配合这颗处理器还有一颗专门用于全息影像和环境感知的全系处理单元(HPU),它搭载2GB的RAM和64GB的ROM,并且支持蓝牙和WiFi。
作为人工智能的延伸,要理解环境和人的意图,HoloLens还必须要有强大的传感器做支撑,在眼镜的左前方和右前方,总共有4颗环境感知摄像头,在眼镜前方正中间,有一颗普通RGB摄像头和一颗深度摄像头,这些摄像头主要利用红外技术来进行手势识别和环境场景的实时建模。
Hololens上还搭载了4颗高灵敏度麦克风,可以拾取不同角度的环境声音和语音指令。除此之外,智能手机上具有的惯性传感器、陀螺仪、环境光传感器也是应有尽有,其中惯性传感器和陀螺仪主要用来识别人体头部的姿态。在眼镜两侧耳朵的位置处,有一对立体声的扬声器,系统通过算法对这两个扬声器进行控制,可以模拟出3D音效。除此之外,Clicker小配件可以通过蓝牙和Hololens相连,取代手势来和眼镜进行交互。
Hololens要实现全系显示和环境感知、手势识别等功能,势必需要较强的硬件性能,高性能必然带来高功耗,微软官方没有公开Hololens整机的功耗和电池容量,但根据实际体验,大概可以使用3小时左右,对于一款体验为主的产品来说也够用了,据笔者估算,Hololens的功耗应该在6-8W,电池容量应该在5000-6000mAh左右。
Hololens的重量为550g左右(1斤多),很难想象1斤重的眼镜戴在头上是什么感受,但Hololens的设计很巧妙,眼镜的内侧有一个环形的头架,在佩戴的时候,将这个头架调节到合适的大小,使其压在前额上部,可以大大减轻眼镜对鼻托的压力。
说到全系显示,就不得不提微软的光学显示方案,Hololens采用的是全息波导显示技术,其光学镜片厚度有3-4mm,视场角有30度左右。
这种显示技术相对于Google glass采用的棱镜反射技术和Meta2采用的离轴反射技术相比,具有厚度和体积小,色彩还原真实等优点,可以比较容易做成普通眼镜的外观。
和全息波导显示技术相对应的还有一种几何波导显示技术,几何波导镜片可以做得更薄,目前的技术可以做到1.7mm的厚度,视场角可以做到60度。但这两种波导技术目前最大的缺点就是加工工艺和加工难度较高,可量产性不是很好,因此成本比较高。笔者猜测,Hololens光学镜片的成本可能会占到其整机的1/3。
Hololens软件系统
Hololens搭载的是基于Windows 10系统打造的全系操作系统,名字叫Windows Holographic。
该系统界面也是延续Windows 10的Metro风格界面,系统设计是根据眼镜的交互方式做的。Holographic内部的全息应用程序叫做Hologram,开发者可以在Holostudio中利用Holographic的工具创建全息的3D模型。
目前微软已经宣布向Intel、高通等公司开放该系统,这有点类似于微软在PC领域推广Windows操作系统,先构建系统和生态,再让其他厂商和开发者加入自家的阵营,从而占领市场,微软有了在Windows PC和Windows Mobile上的经验,现在在AR和MR领域驾轻就熟。
在开发Hololens应用之前,开发者需要安装Visual Studio 2015以上版本、Windows10 SDK、Hololens模拟器以及Unity Hololens技术预览版,这些工具都可以在微软官网上下载到。目前微软官网上有已经有详细的开发指导文档,开发者可自行了解。
Hololens内置了一款名为Young Conker的跑酷游戏,当你点击开始游戏后,HoloLens首先会提示你先spatical mapping,即你要先对你所在的房间进行扫描,你会看到你扫描的地方都会出现一层类似龟裂一样的蓝色网块,当HoloLens识别出你所在的整个房间范围,以及房间内的一些具体物件后,开始进入游戏,你可以通过凝视焦点的移动来控制游戏中小狐狸的行动轨迹,游戏中的小狐狸便会在你的房间里和你一起“闯关”。
Hololens交互体验
前文提到了,Hololens内部集成了深度摄像头和多个传感器,CPU获得这些传感器数据以后,利用Sensor fusion技术,可以实现多种交互方式。
Hololens支持手势、凝视、语音等交互方式。
目前,Hololens支持的手势交互主要有这几种:食指点击为确认;食指和拇指捏和为拖动;绽放手势,即手掌朝上,五指收拢,然后再打开,这个手势为打开开始菜单。
凝视交互,并不是眼球追踪,不能通过眼球的移动来移动光标,眼睛需要盯着光标并且移动头部,才能移动光标。通过以上两种方式就可以满足大部分的交互需求了。
语音交互有点类似于苹果的Siri,这里就不过多介绍了。除此之外,还有上文提到的蓝牙遥控器Clicker。
Hololens的头部姿态的追踪主要还是依靠陀螺仪和惯性传感器来实现,因为头部姿态主要分为XYZ三个维度的位移和角度,这个技术和目前智能手机上使用的类似,比如手机上的赛车游戏都需要追踪手机的姿态。
Hololens的手势识别主要是是依靠深度摄像头,类似于微软自家Xbox上面的Kinect,目前利用深度信息来获取手势数据的技术主要有TOF、结构光技术、双目摄像头。
据笔者了解,Hololens采用的是TOF技术,这种技术是通过红外测距的原理来获得Z轴的信息,最后获得一系列深度图,通过图像处理的方式再计算出具体的手势。由于深度摄像头使用的是红外光,在室内体验时,手势识别的准确度还是比较高,但在户外阳光下,识别效果会有所打折,因为太阳光中的红外成分会对深度摄像头造成一定的影响。
Hololens还具有环境感知能力,在使用一些应用的时候,两侧的4颗IR摄像头会对环境进行扫描,从而构建出外界环境的3D模型。
这项技术叫做SLAM技术,即实时定位与地图构建技术,SLAM技术之前在机器人和无人机领域应用比较多,因为这两类智能硬件需要实时掌握自己在环境中的位置,这项技术的发展,也会推动VR、AR、MR的发展。
Hololens中有些应用在体验之前,会引导用户转动头部来扫描房间的信息,IR摄像头通过测量各个方向的深度信息,以便生成房间的3D模型,在游戏过程中,出现的3D效果都会和房间的实际结构相融合,从而达到MR的效果。
Hologram有一个很重要的关键词——“锚定”,比如打开的一个宇航员模型,就好像锚定在环境空间中,宇航员模型不会随着人的移动而移动,因此人可以在空间中360度对其进行观察,给人一种全息的感觉。这些体验都是得益于SLAM技术和微软的HPU。
结语
有人说,Hololens是微软将计算平台从PC端和手机端搬到眼镜端的一项重大举措,是继iPhone之后的又一大科技革命。
这样的论断笔者暂时不做评论,但从近代科技发展的趋势来看,个人电脑、功能手机、智能手机……消费电子的发展都是为满足人类更高效的生活、娱乐、办公,每一代产品的革新,都是伴随着更低的成本、更自然的交互,更好的体验。
从这一点上来看,AR和MR符合历史发展的规律,在不久的将来,势必会取代个人电脑和智能手机,成为下一代计算平台,微软等巨头在这个领域的布局,势必会加快这个节点的到来。