Pokémon Go开发地理空间大模型，AR眼镜的高精地图？|ar眼镜|大模型|真实世界|视觉

两天前，知名 AR 厂商 Rokid 发布了新一代 AR 眼镜——Rokid Glasses，通过摄像头、多模态大模型以及（玻璃衍射）光波导等技术，在一定程度上让 AR 眼镜实现了对真实世界的感知与理解，以及对用户的协同与展现。

然而就当下来说，AI 或者说视觉大模型对真实世界的理解还远远不够，更多还是对二维照片的物体识别，很难像人类一样具备空间理解能力，也根本无法准确描述物体与物体、物体与人之间的空间关系。

而这个问题的答案，或许还是要从大模型技术中寻找解法。

稍早前，《Pokémon Go》开发商 Niantic 对外宣布正在开发「地理空间大模型」（Large Geospatial Model，简称 LGM），将利用大规模机器学习来理解真实世界的空间，借助 LGM 模型实现「空间智能」。

LGM 模型训练，图/ Niantic

用全球玩家数据打造的「地理空间大模型」

正如 Niantic 在新闻稿中提到的，即使是当今最先进的 AI 模型也难以可视化和推断场景中的缺失部分，或从新的角度想象一个地方。而在根本上，Niantic 认为借助大语言模型训练的方式，我们已经能让 AI 实现比拟甚至超越人类空间理解能力的「空间智能」。

野心背后，Niantic 的另一份底气在于，作为《Pokémon Go》《Ingress》开发商，Niantic 早就手握全球无数玩家贡献的海量真实影像和地图数据，并在过去五年中开发视觉定位系统（VPS），在手机上实现根据单个图像在 3D 地图中确定用户的方位。

事实上，2021 年 Niantic 还发布过一项名为 ManyDepth 的技术，能够通过单个手机摄像头直接创建 3D 地图，利用机器学习将没有深度信息的二维图像转化为带有深度信息的三维图像，并且不依赖 LiDAR 或者其他深度传感器。

图/ Niantic

而作为 Niantic 视觉定位系统的一部分，LGM 模型目前已经训练了超过 5000 万个神经网络，拥有超过 150 万亿个参数，能够在超过 100 万个位置运行。Niantic 首席科学家 Victor Prisacariu 还表示：

「利用我们的用户在玩 Ingress 和 Pokémon Go 等游戏时上传的数据，我们打造了世界的高保真 3D 地图，其中包括 3D 几何形状（或事物的形状）和语义理解。」

最终，LGM 模型的目标是在全球范围内实现对地理空间的共同理解，即便是那些没有被玩家扫描过的地方。

但 LGM 模型意义不仅是让设备「看懂」真实环境，提供精准的空间定位。更重要的是，只有让计算机能够更准确、高效地感知和理解物理空间，才能更深刻地改变人与机器之间基于物理世界的交互方式，进而推动 AR 眼镜以及智能机器人真正走进我们的生活。

左边是 Rokid Glasses，右边是特斯拉擎天柱，图/ Rokid、特斯拉

不过具体到 AR 眼镜上，LGM 模型的推出真的会如人们期待的那样，加速 AR 眼镜的普及吗？甚至成为 AR 行业的「一脚地板油」？这不是一个容易解答的问题。

地理空间大模型，AR版的「高精地图」？

在 AR 眼镜中，准确的空间定位一直是重中之重，这一点相信早已不言而喻。问题在于，现行的 SLAM（同步定位与建图）空间定位技术就像一位即兴作画的画家：通过摄像头等传感器，实时描绘周围环境的地图并确定自身的位置。

但要用这种「即看即建」的方式实现准确的空间定位，不仅依赖传感器支持，往往还需要较高的性能与续航开销，对于内部空间「寸土寸金」的 AR 眼镜来说，始终是不小的压力。AR 厂商不是没想过新的解决方案，比如 Rokid AR Studio 上就实现了基于单目摄像头的空间定位和手势识别，也只是降低了硬件门槛和成本。