原标题:亮风台引入高通 OpenVX 负责人,此 AR 技术厂商怎么布的局?
近日Magic Leap 获阿里领投 7.9 亿美元无疑又为 AR 行业添了把火,我们大可不必因其没有公开 demo 便质疑 Google、阿里,AR 这一系统工程的复杂程度却远比想象中的高。
为方便对 AR 一无所知之人阅读,此处先拿最普遍的 AR 卡片扫描举例。如你所见,识别到红色毛爷爷后,在显示屏上显示叠加在显示场景中的虚拟动画。
亮风台引入高通 OpenVX 负责人,此 AR 技术厂商怎么布的局?" data-img-size-val="547,309" data-lazyload="http://a.36krcnd.com/nil_class/4dc7ffd7-1355-469d-aa90-57cf6a512000/_____2__20160204131332340.gif" width="546.2983425414365"/>
(动图为亮风台 COO 唐荣兴为 36 氪演示产品)
通过深度摄像头采集环境信息后,对 3D 环境理解、重构(CV)中的图像识别、人脸识别、SLAM 算法,3D 模型实时渲染(CG)中的多模态传感器输入,硬件中的光学成像镜片,CPU、GPU 运算能力,落地应用等等,构成一个综合的 AR 技术系统,而其中又以底层算法最为重要。
36 氪此前报道的国内 AR 厂商亮风台也有新动向,高通 OpenVX 计算机视觉加速标准专家和实现技术负责人谢炳龙加入了该公司,他曾领导了骁龙处理器计算机视觉异构加速工作,还是专门为移动设备而优化的计算机视觉库 FastCV 的架构师,拥有 10 余项 CV 相关的美国专利。 谢炳龙的加入来自亮风台首席科学家凌海滨博士的推荐,两人曾在西门子共事。
亮风台的团队可谓豪华且齐整,谢炳龙加入后主要负责底层软件架构,要了解其价值和意义,先要从亮风台的发力点和谢炳龙在高通的积累说起。
在去年11月 底体验过亮风台智能眼镜 HiAR Glasses 后 36 氪曾提出,其识别、跟踪的功能已经可以实现,但眼镜 CPU 的运算能力不足、跟踪反应速度较慢,在移动速度较快时便会自动切换至纯播放模式。背后的原因是 CV 技术存在运算复杂、数据量大、对实时处理要求高,如果不能在瞬息内计算场景、处理图像,用户看到的内容会显得卡顿。
高通 OpenVX 是跨硬件平台的计算机视觉相关优化加速的标准协议,不同的硬件都能用它来优化运行速度,相当于 OPEN GL 对于电脑的地位。而 FastCV 则是高通平台上的 CV 加速运行库,把 OpenCV 的库针对高通的芯片进行优化,可以帮助配备高通芯片的移动终端(如手机)更快的运算 CV 数据,以及在基于摄像头的应用中增加新的用户体验,如增强现实、手势识别、人脸识别等。
亮风台 SDK 此前采用通用算法,在不同终端的体验并不相同。随着谢炳龙的加入,虽暂时不会调用 OpenVX 的 API 接口,但无论是 OpenVX 还是 FastCV,其背后的芯片级底层架构都可以用作优化亮风台的软件算法,针对不同的硬件(眼镜、各种型号手机)进行优化,解决上述 “跟踪反应速度慢” 的问题。
除了芯片级优化之外,亮风台之 “齐整” 体现在 SDK、内容发布平台(落地应用)、智能眼镜硬件都有涉及(见上图),下面将其分拆开来一一介绍:
可能是国内首个支持云识别的 AR SDK
除了 “所见即所得” 的 PC 端 Unity 编辑器之外,亮风台最近又上线了云识别功能。所谓云识别,即无需将需要进行识别的图像存储在用户的本地内存中,而是直接从云端调用。举个例子,假如要做一个图书互动阅读的 AR 应用需要识别十万张图书页,全部放在用户手机中是不现实的,而云识别的优势体现有三点:
- 灵活性。用户下载 APP 中的资源是固定的,如果采用云识别方案,开发者只需在管理后台中进行变更就可以更新图片和资源,用户无需任何操作。
- 大数据处理能力。云识别可以进行大数据的扩展,同时满足增加的需求。
- 优化算法。企业以在云端部署新算法的同时,用户无需更新 APP,就能感受到识别、跟踪能力的提高。
云识别的难点在于,后端的数据量非常庞大后,如何保证识别速度足够快?这需要通过算法缩小数据搜寻范围、减小计算量,同时让多个处理器并行处理。另外,还需要面临宕机、被攻击等突发因素的影响。
廖春元告诉 36 氪,其超百万数据的云识别响应速度可以做到秒级、96%以上的识别准确度。支持自然图像、通用目标识别、人脸识别、实物识别、小 logo 识别、中文图文混排精准识别等识别对象。
目前亮风台只开放了 Unity SDK,云识别 API 只提供识别而不提供跟踪功能,需要搭配该 SDK 一起使用。此外,该公司也研发了 iOS、Android 原生系统的 SDK 引擎,面向有指定使用引擎和对 3D 效果没有要求的开发者,将于年后上线。
亮风台的云识别技术此前已有应用案例——与百度 91 手机助手合作的 “应用拍拍”,用户用手机对准某一应用、游戏的图片,便可直接在 91 手机助手中搜到 APP 进行安装。这需要在百万级的 APP 图表中进行快速搜索。
廖春元表示,HiAR SDK 还需要加入更多功能,做到多模态的输入,如加入手势、人脸、目标识别等,提供最自然的人机交互方式。关于多模态输入,我们放到下文智能眼镜部分再讲。
内容发布平台
所谓内容发布平台是基于其 SDK 而面向内容开发伙伴的服务,帮助后者做一些落地应用。由于此前拿到过美图的投资,后者的海量图片数据可以用来训练人脸识别技术,基于此亮风台已经在为企业提供用于游戏娱乐的技术,不过可能由于产品尚未落地,还没有公布合作伙伴的名字。
廖春元表示,亮风台也为垂直应用场景做了深入优化,如大角度、远距离识别跟踪场景优化,可在教育、游戏等行业成熟应用。
此外,亮风台也发布了一个免开发的 AR 浏览器 “幻镜”,为没有开发能力的内容开发伙伴提供展示平台与技术支持,可以针对地推、线下活动营销提供解决方案。同时,该公司也在幻镜中加入了一些 2C 的趣味功能,比如像本文开头所附动图那样扫描人民币展现动画。
HiAR Glasses 智能眼镜继续修补、优化,有望年中量产

亮风台 CEO 廖春元告诉 36 氪,其智能眼镜 HiAR Glasses 将会在今年5月 发布新一代原型机,并在年中量产。在上个版本的原型机基础上,量产版将有一些新的改进:
- 将会启用展讯芯片,可能会换成高通骁龙 8 系列芯片;
- 针对芯片改进算法,优化软硬件配合;
- 将采用薄至 7 毫米的镜片;
至于要沿用上一代的分体式设计(外置触控板和电池),还是做成综合一体式,以及采用哪个供应商的深度摄像头方案,廖春元表示尚未确定。
量产版的另一大改进是将支持手势识别、语音识别和图像识别,也就是 “多模态输入”。
环境建模分为平面几何理解、环境语义理解(知道这是什么)以及多模态融合,只有把它们结合起来才算 “非约束性” 技术,比如不需要特定卡片便可呈现图像、动画并能够与现实环境融合。亮风台此前对外展示的产品在此方面略显不足,但廖春元表示该公司已经开始研发,希望在量产版的眼镜上体现出来。
为此,亮风台提出了 “SMART” SDK 底层技术框架,所谓 SMART 即 Semantic Multi-modal AR in Teraction(语义驱动、多模态融合 AR 自然人机交互),以典型场景举例:
用户走到博物馆展品附近,对眼镜说"开始解说”,然后根据手指指向的目标虚拟叠加出展品信息。
这个例子里面融合了构想中大部分的因素(多模态、语义、几何等等):语音控制语言(比如说"英文解说")或者其他命令(比如说"开始解说"),手势控制交互(可以显示虚拟的鼠标点设置从手伸出的射线),显示叠加展示对世界的几何理解和虚实叠加(动画,图文等等)。具体实现效果如何还需产品发布后才能知道。
以上即为亮风台的整体布局,可以看出这是一家手握各方面底层核心算法,想做技术大平台的企业。如同那些同样以前沿技术为核心的科技公司,亮风台也背靠大学实验室、研究所流入科研成果。唐荣兴向 36 氪表示,该公司今年将拿出很大精力放在创造典型的应用上,而这也是该公司略显不足之处,这群科学家、工程师能否找到有明确需求的应用场景,还是值得期待的。
原创文章,作者:暮雨,如若转载,请注明出处:http://36kr.com/p/5043057.html
“看完这篇还不够?如果你也在创业,并且希望自己的项目被报道,请戳这里告诉我们!”
热门跟贴