打开网易新闻 查看精彩图片

想象一下,你站在一座熟悉的建筑物前,无论是教堂、雕像还是广场,即使你未曾从所有角度观察过它,你也能轻易想象它从不同角度的面貌。这是人类独有的“空间理解”能力,我们能基于以往经验填补细节、推断未知。然而,对于机器而言,这项任务却异常艰巨。即使是当今最先进的AI模型,也难以想象场景的缺失部分或重新角度观测。

但这种情况即将改变。空间智能,将是AI模型的下一个“frontier”(新领域)。

Niantic,作为AR领域的先驱,正致力于构建“大型地理空间模型 (LGM)”。LGM将利用大规模机器学习来理解场景,并将其与全球数百万个场景连接起来,赋予机器如同人类般的空间理解能力。

Niantic是一家美国软件开发公司,以其开发的增强现实 (AR) 游戏闻名,最知名的作品是《Pokémon GO》和《Ingress》。

Niantic成立于2010年,最初是Google内部的创业公司,后来独立出来。公司的使命是“利用科技增进人们与世界、彼此之间的互动”。Niantic相信AR技术有潜力创造更有趣、更具互动性的体验,鼓励人们探索周边世界并与他人创建连接。

除了游戏开发,Niantic也致力于构建AR技术的基础设施,例如其开发的Lightship平台,让开发者能更轻松地创造AR体验。Niantic的愿景是打造一个“真实世界元宇宙”,将数字世界与现实世界融合,创造更丰富、更具互动性的生活体验。

近年来,大型语言模型 (LLM) 的发展对我们的生活和各个产业产生了不可否认的影响。LLM通过学习大量的文本数据,展现出惊人的语言理解和生成能力,挑战了我们对“智能”的认知。

而LGM的目标,则是帮助计算机以同样先进的方式感知、理解和导航现实世界。如同LLM学习文本数据,LGM则学习大量的地理空间数据:数十亿张锚点于精确地理位置的真实世界图像,这些数据经过模型的萃取和学习,最终形成对空间、结构和物理互动的深度理解。

从基于文本的模型到基于3D数据的模型,反映了近年来AI发展更广泛的发展轨迹:从理解和生成语言,到解读和创造静态和动态图像(2D视觉模型),再到如今方兴未艾的3D物体建模(3D视觉模型)。

LGM比3D视觉模型更进一步,它捕捉的是根植于特定地理位置、具有真实比例的3D实体。与生成无比例3D资产的3D生成模型不同,LGM与真实世界的比例尺度绑定,能确保精确的尺寸估计。因此,LGM所代表的是新一代的地图,而非任意的3D资产。

3D视觉模型或许能够创造和理解3D场景,但LGM却能理解该场景与全球数百万个场景的地理关系。LGM赋予机器“地理空间智能”,使其能够从先前的观察中学习,并将知识迁移到新的位置,即使这些位置只有部分被观察到。

打开网易新闻 查看精彩图片

虽然搭载3D图形的AR眼镜距离大规模普及尚需数年,但LGM仍有机会与纯音频或2D显示眼镜集成。LGM可以引导用户探索世界、回答问题、提供个性化推荐、辅助导航,并增强现实世界的互动。

此外,LGM与LLM的集成,将使空间理解和语言理解相结合,让人们更深入地了解周边环境,并与其互动。LGM所带来的地理空间智能,还能生成、完善或操控3D世界模型,进一步推动AR体验的发展。

除了游戏领域,LGM还将广泛应用于空间规划与设计、物流、群众参与和远程协作等领域。

过去五年,Niantic一直致力于构建“视觉定位系统 (VPS)”。VPS利用手机拍摄的单张图像,通过由用户扫描的3D地图,精确判断手机的位置和方向。

借助VPS,用户可以厘米级的精度将自己定位于真实世界中,并查看与物理环境精确叠合的数字内容。这些内容是永久存在的,即使你离开后,它们仍会留在原地,并可与他人分享。例如,Niantic最近在Pokémon GO中推出了一项名为“Pokémon Playgrounds”的实验性功能,用户可以在特定位放置置Pokémon,其他玩家也能看到并与之互动。

Niantic的VPS创建在用户扫描的基础上,这些扫描来自不同的视角、不同的时间,甚至跨越数年,并附带精确的定位资讯,构成了对世界的高度精细理解。这些数据的独特之处在于,它们来自行人的视角,涵盖了汽车无法到达的地方。

打开网易新闻 查看精彩图片

目前,Niantic在全球拥有1000万个扫描地点,其中超过100万个已激活,可供VPS服务使用。每周,Niantic都会收到约100万份新的扫描数据,每份数据包含数百张独立图像。

在VPS的研发过程中,Niantic不仅使用传统的3D视觉技术(如运动恢复结构),还为每个地点构建了一种新型的“神经地图”。这些基于Niantic研究论文ACE (2023) 和ACE Zero (2024) 的神经模型,不再使用传统的3D数据结构来表示位置,而是将其隐式编码在神经网络的可学习参数中。这些网络可以将数千张地图图像快速压缩成精简的神经表示,并根据新的查询图像,提供厘米级精度的位置定位。

迄今为止,Niantic已经训练了超过5000万个神经网络,其中多个网络可以共同作用于同一个位置。所有这些网络加起来,包含超过150兆个参数,并通过机器学习进行优化。

Niantic目前的神经地图,作为VPS的一部分,已经是一个可行的地理空间模型。它规模庞大,且已投入实际应用。然而,Niantic对“大型地理空间模型”的愿景,远不止于目前的独立局部地图系统。

完全局部的模型,可能缺乏对其所在位置的完整覆盖。无论在全球范围内有多少数据,局部数据往往是稀疏的。局部模型的主要缺陷,是无法推断超出其观察范围的资讯。因此,局部模型只能定位与训练数据相似的视角。

想象你站在一座教堂后面。假设最近的局部模型只见过教堂的正面入口,那么它就无法判断你的位置,因为它从未见过教堂的背面。但在全球范围内,Niantic已经见过成千上万座教堂,它们都被各自的局部模型捕捉下来。尽管每座教堂都不同,但它们仍有许多共同特征。LGM正是为了利用这些分布式知识而生。

LGM将共同资讯提炼到一个全球大型模型中,实现局部模型之间的资讯共享。LGM能够内化“教堂”的概念,以及这些建筑的常见结构。即使在特定位置,VPS只搭建了教堂的入口,LGM也能根据其先前对数千座教堂的观察,智能地推测教堂背面的面貌。因此,即使在VPS从未见过的视角和角度,LGM也能实现前所未有的定位稳健性。

这种全球模型,基于地理空间和视觉数据,构建了对世界的集中式理解。LGM通过在全球范围内插值,实现局部推断。

上述过程,与人类感知和想象世界的方式非常相似。人类天生就能识别先前见过的物体,即使从不同的角度。例如,我们可以轻易地在欧洲古城的蜿蜒街道中找到来时的路,即使我们只见过一次,且方向相反。这需要对物理世界和文化空间的深刻理解,对人类来说轻而易举,但对传统的机器视觉技术而言却极具挑战性。

这需要掌握一些基本的自然规律:世界由具有实体的物体组成,因此有正面和背面;外观会随着时间和季节变化。同时,这也需要大量的文化知识:许多人造物体的形状遵循特定的对称规则或其他通用布局,而这些规则通常与地理区域相关。

早期的计算机视觉研究,试图破译这些规则,并将其嵌入到人工设计的系统中。但现在,人们普遍认为,只有通过大规模机器学习,才能实现我们渴望的高度理解。这正是Niantic构建LGM的目标。

在Niantic最近的研究论文MicKey (2024)中,我们已经看到了这种令人印象深刻的相机定位能力。MicKey是一个神经网络,即使在视角剧烈变化的情况下,也能够定位两个相机视图的相对位置。

即使是人类也需要花费一些精力才能判断的相反视角,MicKey也能轻松应对。MicKey只使用了Niantic数据的一小部分进行训练,且该数据已向学术界公开,以鼓励这方面的研究。尽管MicKey仅限于双视图输入,且训练数据相对较少,但它仍然证明了LGM的潜力。

显然,要实现本文所述的地理空间智能,需要大量的地理空间数据,而这类数据并非所有机构都能获取。Niantic每周都会收到超过100万份用户贡献的真实世界地点扫描数据,这使得Niantic在引领LGM发展方面处于独特地位。

打开网易新闻 查看精彩图片

LGM的用途,不仅仅是定位。为了准确地解决定位问题,LGM必须将丰富的几何、外观和文化资讯编码到场景级特征中。这些特征将带来场景表示、操控和创造的新方法。像LGM这样用途广泛的大型AI模型,通常被称为“基础模型”。

不同类型的基础模型将互为补充。LLM将与多模态模型互动,而多模态模型又将与LGM进行通信。这些系统协同工作,将以任何单一模型都无法实现的方式理解世界。这种互联,正是空间运算的未来——能够感知、理解和作用于物理世界的智慧系统。

随着模型的可扩展性不断提高,Niantic的目标仍然是引领大型地理空间模型的发展,并在任何地方为用户提供新颖、有趣且丰富的体验。如前所述,除了游戏领域,LGM还将广泛应用于空间规划与设计、物流、群众参与和远程协作等领域。

从LLM到LGM,是AI进化的又一步。随着AR眼镜等可穿戴设备的普及,未来的世界操作系统,将依赖于物理现实和数字现实的融合,创造一个以人为中心的空间运算系统。