(来源:麻省理工科技评论)
打开网易新闻 查看精彩图片
(来源:麻省理工科技评论)

《Pokémon Go》是全球首个爆款增强现实游戏。2016 年,Google 孵化公司 Niantic 推出了这款将 AR 技术融入《神奇宝贝》这一超级 IP 的作品,迅速席卷全球。从芝加哥到奥斯陆,再到江之岛,玩家们纷纷走上街头,满怀期待地寻觅胖丁、杰尼龟,或是(极其幸运地)捕捉那只悬浮在现实世界中、触手可及却又遥不可及的超稀有洗翠雷鸟。

这使得数以亿计的人将手机镜头对准了无数栋建筑。“这款应用在 60 天内被 5 亿人安装,”Niantic 于去年 5 月分拆成立的 AI 公司 Niantic Spatial 的首席技术官布莱恩·麦克伦顿(Brian McClendon)说。据从 Niantic 手中收购《Pokémon Go》的游戏公司 Scopely 披露,2024年,这款游戏在发布整整八年后,月活跃玩家仍超过 1 亿。

如今,Niantic Spatial 正在利用这批规模庞大、无可比拟的众包数据来构建一种“世界模型”——毕竟,来自全球数亿《Pokémon Go》玩家手机拍摄的城市地标图像,并附有超高精度的位置标注。这是一种新兴技术,旨在将大语言模型的智能能力与真实物理环境相结合。

该公司最新推出的产品是一个模型,声称仅凭数张周边建筑或地标的快照,便能将用户在地图上的位置精确定位至厘米级。公司希望将其用于在 GPS 信号不稳定的场景中,帮助机器人实现更精准的导航。

作为技术的首次大规模实测,Niantic Spatial 已与 Coco Robotics 达成合作。Coco Robotics 是一家在美国和欧洲多个城市部署“最后一公里”配送机器人的初创公司。“所有人都以为 AR 是未来,都觉得 AR 眼镜即将到来,”麦克伦顿说,“然后机器人成了那个目标用户。”

打开网易新闻 查看精彩图片

从皮卡丘到披萨配送

Coco Robotics 在洛杉矶、芝加哥、泽西城、迈阿密和赫尔辛基部署了约 1000 台航空箱大小的机器人,每台可搭载最多 8 个特大号披萨或 4 袋购物袋。据首席执行官扎克·拉什(Zach Rash)介绍,这些机器人迄今已完成逾 50 万次配送,在各种天气条件下累计行驶数百万英里。

然而,要与人类快递员竞争,这些在人行道上以约每小时 8 公里的速度行进的机器人,必须达到极高的可靠性。“我们最好的服务,就是在承诺的时间准时到达。”拉什说,这意味着不能迷路。

Coco 面临的问题在于,无法依赖 GPS。在城市中,无线电信号在建筑物之间相互反射干扰,导致 GPS 信号往往很弱。“我们在很多高楼林立、有高架桥和立交桥的密集区域送餐,而这些地方恰恰是 GPS 从来都不好用的地方,”拉什说。

“城市峡谷是全球 GPS 最糟糕的场景,”麦克伦顿说,“打开手机看那个蓝色定位点,你会发现它常常漂移 50 米,把你定位到另一条街、另一个方向、马路的另一侧。”这正是 Niantic Spatial 切入的地方。

过去数年,Niantic Spatial 持续整合《Pokémon Go》和 Ingress(Niantic 于 2013 年推出的上一款手机 AR 游戏)玩家贡献的数据,构建了一套视觉定位系统——一种根据视野所见来判断位置的技术。“让皮卡丘真实地在现实世界中奔跑,和让 Coco 机器人安全、精准地穿行于城市,本质上是同一个问题。”Niantic Spatial 首席执行官约翰·汉克(John Hanke)说。

“视觉定位并不是什么全新的技术,”地图与地理空间分析软件公司 ESRI 的康拉德·文泽尔(Konrad Wenzel)说,“但显然,外部摄像头越多,效果就越好。”

Niantic Spatial 用 300 亿张城市环境图像训练了其模型,这些图像高度集中于热点地点——也就是 Niantic 游戏中鼓励玩家到访的重要场所,例如宝可梦对战场馆。“我们在全球拥有逾百万个可对用户进行精确定位的地点,”麦克伦顿说,“我们知道你站在哪里,精度在几厘米以内,更重要的是,我们知道你在看向哪个方向。”

由此带来的结果是,对于这百万个地点中的每一处,Niantic Spatial 都积累了数以千计的图像,这些图像拍摄地点大致相同,但角度不同、时段不同、天气不同。每张图像都附有详尽的元数据,精确记录了拍摄瞬间手机在空间中的位置,包括朝向、角度、是否在移动,以及移动速度和方向等信息。

该公司以此数据集训练了一个模型,让其通过分析所见内容来精确判断自身所处位置。即便是在那百万热点之外、图像和位置数据相对稀缺的地点,同样适用。

除 GPS 之外,装配了四个摄像头的 Coco 机器人,现在还将借助这一模型判断自身位置和前进方向。机器人摄像头位于腰部高度,可同时覆盖四个方向,与《Pokémon Go》玩家的视角略有不同,但拉什表示,数据的适配改造十分顺畅。

竞争对手同样在使用视觉定位系统。例如,2014 年在爱沙尼亚创立的机器人配送公司 Starship Technologies 表示,其机器人会利用传感器构建周围环境的三维地图,标绘建筑边缘和路灯位置。

但拉什押注 Niantic Spatial 的技术将为 Coco 带来竞争优势。他声称,这将使机器人能够精准停在餐厅门外的指定取餐位,既不妨碍他人,又能停在顾客门前——而不是像过去有时那样停在稍远的地方。

打开网易新闻 查看精彩图片

机器人领域的寒武纪?

汉克表示,Niantic Spatial 最初开发视觉定位系统,是为了将其应用于增强现实。“如果你戴着 AR 眼镜,希望虚拟世界与你所看的方向精确对齐,就需要某种方法来实现这一点,”他说,“但现在,我们正在见证机器人领域的寒武纪大爆发。”

这些机器人中,部分将需要与人类共享空间,例如建筑工地和人行道。“如果机器人要以不打扰人类的方式融入这些环境,就必须具备与人类相近的空间理解能力,”汉克说,“我们能帮助机器人在被碰撞或推移之后,精确定位自身所在。”

与 Coco Robotics 的合作只是开始。汉克表示,Niantic Spatial 正在搭建的,是他所称的“活地图”的第一批基础模块:一幅随世界变化而实时更新的超精细虚拟世界模拟。随着 Coco 及其他公司的机器人在现实世界中持续移动,它们将不断提供新的地图数据,推动数字世界复制品的精度持续提升。

在汉克和麦克伦顿看来,地图不仅变得越来越精细,也越来越多地被机器使用,这从根本上改变了地图的意义。长久以来,地图的作用是帮助人类在世界中定位自身。从二维到三维,再到四维(如数字孪生体等实时模拟),这一基本逻辑从未改变:地图上的点对应空间或时间中的点。

然而,面向机器的地图或许需要更像一本指南,充满人类习以为常但机器需要明确告知的信息。Niantic Spatial 和 ESRI 等公司希望为地图添加描述性标注,让机器理解它们究竟在看什么——为每个对象打上涵盖其属性的标签。“这个时代的核心任务,是为机器构建有用的世界描述,”汉克说,“我们所拥有的数据,是建立世界运作脉络理解的绝佳起点。”

当前,世界模型正处于热议之中,Niantic Spatial 对此心知肚明。大语言模型或许看似无所不知,但在解读和与日常环境交互方面,它们的常识极为匮乏。世界模型旨在弥补这一缺陷。Google DeepMind 和 World Labs 等公司正在开发能够即时生成虚拟幻想世界的模型,并将其作为训练 AI 智能体的演练场。

Niantic Spatial 表示,自己从另一个角度切入这一问题。麦克伦顿认为,地图制作推进到极致,最终会捕捉到一切:“我非常专注于重现真实世界。我们还没到那一步,但那是我们的目标。”

https://www.technologyreview.com/2026/03/10/1134099/how-pokemon-go-is-helping-robots-deliver-pizza-on-time/