打开浏览器就能直接走进一个逼真的 3D 世界,还能像玩游戏一样自由旋转角度,更能看清每一个物体的细节,甚至还能看到会动的虚拟人向你招手。
这上海交通大学人工智能学院钟志航副教授和上海人工智能实验室等合作者打造的一个名为 Visionary 的平台,能让复杂的 3D 场景在浏览器里流畅运行,不需要下载任何软件,也不需要高性能显卡,点击链接就能看。
以前要想看一个高质量的 3D 模型,要么得下载几个 G 的安装包,要么得忍受卡顿和模糊的画质。现在,研究人员将一个名为 3D 高斯溅射的技术搬到浏览器里,而且跑得比很多本地软件还快。
什么是 3D 高斯溅射?它好比一个超级智能的点彩画技术。传统 3D 模型要使用大量三角形网格拼出物体,计算量巨大。而高斯溅射使用成千上万个带有颜色和透明度的小点来代替场景,这些点像雾气一样悬浮在空间中,从不同角度看过去它们会组合成为完整的画面。这项技术因为效果好、速度快,正在成为一些世界模型创业公司的核心工具。
但是问题来了,这么牛的技术普通人怎么用?以前的方法要么依赖笨重的本地软件,装起来非常费劲;要么在网页上跑,但使用的是老旧的 WebGL 技术,只能看静态画面,稍微动一下就卡顿,更别提那些会动的、会变化的场景了。
Visionary 的突破在于,它把整套技术栈搬到了 WebGPU 上。WebGPU 是新一代浏览器图形标准,能让网页直接调用显卡干活。Visionary 还做了一个很聪明的设计,他们把各种复杂的 3D 算法统一打包成为 ONNX 格式。
ONNX 就像一个通用语言,不管是用 PyTorch 还是用 TensorFlow 训练的模型,都成转成为这个格式,然后在浏览器里直接运行。这就意味着,你不需要懂底层代码,就能把最新的 3D 技术插进 Visionary 里用。
具体有多快?研究团队拿一个包含 600 万个高斯点的经典场景做了测试。现有的李飞飞 WorldLbas 团队推出的网页查看器 SparkJS 处理一帧需要 176 毫秒,而 Visionary 只需要 2 毫米,快乐将近 100 倍。而且画质一点都没有打折,反而因为算法优化变得更加细腻。
同时,Visionary 不只会处理静态场景。它支持会动的 4D 场景,支持可驱动的虚拟人,甚至支持在渲染完成后加滤镜和做风格迁移。比如你导入一个虚拟人模型,输入几个动作参数,它就能在浏览器里实时跳舞。这些动态效果以前只能在专业的动画软件里看到,现在点开网页就行。
研究团队使用几个案例展示了 Visionary 的能力。他们把 Scaffold GS 这种基于神经网络的 3D 模型跑进了浏览器,每帧只需要 9 到 16 毫秒生成画面。
他们把 4D 高斯溅射也搬了过来,处理动态场景时每帧只要不到 8 毫秒。对于虚拟人动画,即使是同时驱动 10 个虚拟人,也能保持在 55 毫秒左右,基本达到实时交互的标准。
这意味着未来的 3D/4D 内容将触手可及,不再受限于设备性能。设计师想展示一个视频,发给客户一个网址客户就能沉浸式体验;至于游戏开发者他们甚至可以在浏览器里跑起来轻量级的 3D 游戏。
Visionary 已经在 GitHub 上开源了,任何人都能访问。他们还做了一个在线编辑器,你可以在里面同时加载多个 3D 模型,和传统网络模型混合渲染,实时调整视角。
钟志航告诉 DeepTech:“这项技术已经有了实际应用。在上海人工智能实验室的 2025 世界人工智能大会成果中,有一个叫书生翼飞的项目,就是基于 Visionary 把上海一大块区域的环境重建出来放在网页端,用户输入想要的飞机型号,系统就能实时生成对应的飞机,在上海上空模拟飞行。
在数字孪生领域,工厂或供应链需要把各个环节数字化,有了这项技术,整个孪生体系会变得非常逼真,方便人交互,也方便智能体在接近真实环境的空间里学习操作。”
当然,这项技术还在进化中。研究团队在论文里也提到,WebGPU 和 ONNX Runtime 还在发展,不同浏览器可能存在兼容差异。浏览器安全策略也对内存有约束,太大规模的场景和神经网络目前还跑不了。但是方向已然非常清晰:那就是未来的 3D 世界不再遥远,就存在于可能你此刻正在使用的浏览器。
钟志航表示,Visionary 还打包成了一个 three.js 的库,这意味着做游戏、做网页端开发都可以直接使用,共享整个 three.js 的生态系统。
后续团队计划在物理交互上发力,比如在游戏场景中加入力的反馈,弓箭射中墙面得有反应。同时也在构建空间智能体的评测基准,因为这套体系能把神经网络嵌到网页端做推理,甚至可以让体量不太大的多模态模型直接在网页上跑,一边做逼真的对话,一边执行空间任务。
钟志航的 Visionary 团队在招聘熟悉神经渲染和图形学的工程师和实习生,以及欢迎申请其在上海交通大学空间多媒体实验室的硕士博士以及 RA。详情请联系邮箱 zzh.tech@gmail.com
参考资料:
相关论文:https://arxiv.org/pdf/2512.04597
相关开源代码:https://github.com/Visionary-Laboratory/visionary
运营/排版:何晨龙
热门跟贴