Niantic开发大型地理空间模型 (LGM)，利用AR技术革新AI发展|ar技术|niantic|地理空间模型|真实世界|神经网络

想象一下，你站在一座熟悉的建筑物前，无论是教堂、雕像还是广场，即使你未曾从所有角度观察过它，你也能轻易想象它从不同角度的面貌。这是人类独有的“空间理解”能力，我们能基于以往经验填补细节、推断未知。然而，对于机器而言，这项任务却异常艰巨。即使是当今最先进的AI模型，也难以想象场景的缺失部分或重新角度观测。

但这种情况即将改变。空间智能，将是AI模型的下一个“frontier”（新领域）。

Niantic，作为AR领域的先驱，正致力于构建“大型地理空间模型 (LGM)”。LGM将利用大规模机器学习来理解场景，并将其与全球数百万个场景连接起来，赋予机器如同人类般的空间理解能力。

Niantic是一家美国软件开发公司，以其开发的增强现实 (AR) 游戏闻名，最知名的作品是《Pokémon GO》和《Ingress》。

Niantic成立于2010年，最初是Google内部的创业公司，后来独立出来。公司的使命是“利用科技增进人们与世界、彼此之间的互动”。Niantic相信AR技术有潜力创造更有趣、更具互动性的体验，鼓励人们探索周边世界并与他人创建连接。

除了游戏开发，Niantic也致力于构建AR技术的基础设施，例如其开发的Lightship平台，让开发者能更轻松地创造AR体验。Niantic的愿景是打造一个“真实世界元宇宙”，将数字世界与现实世界融合，创造更丰富、更具互动性的生活体验。

近年来，大型语言模型 (LLM) 的发展对我们的生活和各个产业产生了不可否认的影响。LLM通过学习大量的文本数据，展现出惊人的语言理解和生成能力，挑战了我们对“智能”的认知。

而LGM的目标，则是帮助计算机以同样先进的方式感知、理解和导航现实世界。如同LLM学习文本数据，LGM则学习大量的地理空间数据：数十亿张锚点于精确地理位置的真实世界图像，这些数据经过模型的萃取和学习，最终形成对空间、结构和物理互动的深度理解。

从基于文本的模型到基于3D数据的模型，反映了近年来AI发展更广泛的发展轨迹：从理解和生成语言，到解读和创造静态和动态图像（2D视觉模型），再到如今方兴未艾的3D物体建模（3D视觉模型）。

LGM比3D视觉模型更进一步，它捕捉的是根植于特定地理位置、具有真实比例的3D实体。与生成无比例3D资产的3D生成模型不同，LGM与真实世界的比例尺度绑定，能确保精确的尺寸估计。因此，LGM所代表的是新一代的地图，而非任意的3D资产。

3D视觉模型或许能够创造和理解3D场景，但LGM却能理解该场景与全球数百万个场景的地理关系。LGM赋予机器“地理空间智能”，使其能够从先前的观察中学习，并将知识迁移到新的位置，即使这些位置只有部分被观察到。

虽然搭载3D图形的AR眼镜距离大规模普及尚需数年，但LGM仍有机会与纯音频或2D显示眼镜集成。LGM可以引导用户探索世界、回答问题、提供个性化推荐、辅助导航，并增强现实世界的互动。

此外，LGM与LLM的集成，将使空间理解和语言理解相结合，让人们更深入地了解周边环境，并与其互动。LGM所带来的地理空间智能，还能生成、完善或操控3D世界模型，进一步推动AR体验的发展。

除了游戏领域，LGM还将广泛应用于空间规划与设计、物流、群众参与和远程协作等领域。

过去五年，Niantic一直致力于构建“视觉定位系统 (VPS)”。VPS利用手机拍摄的单张图像，通过由用户扫描的3D地图，精确判断手机的位置和方向。

借助VPS，用户可以厘米级的精度将自己定位于真实世界中，并查看与物理环境精确叠合的数字内容。这些内容是永久存在的，即使你离开后，它们仍会留在原地，并可与他人分享。例如，Niantic最近在Pokémon GO中推出了一项名为“Pokémon Playgrounds”的实验性功能，用户可以在特定位放置置Pokémon，其他玩家也能看到并与之互动。

Niantic的VPS创建在用户扫描的基础上，这些扫描来自不同的视角、不同的时间，甚至跨越数年，并附带精确的定位资讯，构成了对世界的高度精细理解。这些数据的独特之处在于，它们来自行人的视角，涵盖了汽车无法到达的地方。

目前，Niantic在全球拥有1000万个扫描地点，其中超过100万个已激活，可供VPS服务使用。每周，Niantic都会收到约100万份新的扫描数据，每份数据包含数百张独立图像。

在VPS的研发过程中，Niantic不仅使用传统的3D视觉技术（如运动恢复结构），还为每个地点构建了一种新型的“神经地图”。这些基于Niantic研究论文ACE (2023) 和ACE Zero (2024) 的神经模型，不再使用传统的3D数据结构来表示位置，而是将其隐式编码在神经网络的可学习参数中。这些网络可以将数千张地图图像快速压缩成精简的神经表示，并根据新的查询图像，提供厘米级精度的位置定位。

迄今为止，Niantic已经训练了超过5000万个神经网络，其中多个网络可以共同作用于同一个位置。所有这些网络加起来，包含超过150兆个参数，并通过机器学习进行优化。

Niantic目前的神经地图，作为VPS的一部分，已经是一个可行的地理空间模型。它规模庞大，且已投入实际应用。然而，Niantic对“大型地理空间模型”的愿景，远不止于目前的独立局部地图系统。

完全局部的模型，可能缺乏对其所在位置的完整覆盖。无论在全球范围内有多少数据，局部数据往往是稀疏的。局部模型的主要缺陷，是无法推断超出其观察范围的资讯。因此，局部模型只能定位与训练数据相似的视角。

想象你站在一座教堂后面。假设最近的局部模型只见过教堂的正面入口，那么它就无法判断你的位置，因为它从未见过教堂的背面。但在全球范围内，Niantic已经见过成千上万座教堂，它们都被各自的局部模型捕捉下来。尽管每座教堂都不同，但它们仍有许多共同特征。LGM正是为了利用这些分布式知识而生。

LGM将共同资讯提炼到一个全球大型模型中，实现局部模型之间的资讯共享。LGM能够内化“教堂”的概念，以及这些建筑的常见结构。即使在特定位置，VPS只搭建了教堂的入口，LGM也能根据其先前对数千座教堂的观察，智能地推测教堂背面的面貌。因此，即使在VPS从未见过的视角和角度，LGM也能实现前所未有的定位稳健性。

这种全球模型，基于地理空间和视觉数据，构建了对世界的集中式理解。LGM通过在全球范围内插值，实现局部推断。

上述过程，与人类感知和想象世界的方式非常相似。人类天生就能识别先前见过的物体，即使从不同的角度。例如，我们可以轻易地在欧洲古城的蜿蜒街道中找到来时的路，即使我们只见过一次，且方向相反。这需要对物理世界和文化空间的深刻理解，对人类来说轻而易举，但对传统的机器视觉技术而言却极具挑战性。

这需要掌握一些基本的自然规律：世界由具有实体的物体组成，因此有正面和背面；外观会随着时间和季节变化。同时，这也需要大量的文化知识：许多人造物体的形状遵循特定的对称规则或其他通用布局，而这些规则通常与地理区域相关。

早期的计算机视觉研究，试图破译这些规则，并将其嵌入到人工设计的系统中。但现在，人们普遍认为，只有通过大规模机器学习，才能实现我们渴望的高度理解。这正是Niantic构建LGM的目标。

在Niantic最近的研究论文MicKey (2024)中，我们已经看到了这种令人印象深刻的相机定位能力。MicKey是一个神经网络，即使在视角剧烈变化的情况下，也能够定位两个相机视图的相对位置。

即使是人类也需要花费一些精力才能判断的相反视角，MicKey也能轻松应对。MicKey只使用了Niantic数据的一小部分进行训练，且该数据已向学术界公开，以鼓励这方面的研究。尽管MicKey仅限于双视图输入，且训练数据相对较少，但它仍然证明了LGM的潜力。

显然，要实现本文所述的地理空间智能，需要大量的地理空间数据，而这类数据并非所有机构都能获取。Niantic每周都会收到超过100万份用户贡献的真实世界地点扫描数据，这使得Niantic在引领LGM发展方面处于独特地位。