大数据文摘受权转载自夕小瑶科技说
作者 | 海野
“AI教母”李飞飞的初创公司World Labs,用3个月时间,打磨出了第一个“空间智能”项目:
用一张图片生成3D世界,可探索,可交互。
只需要一张图片,甚至是一句prompt,就能生成一个非常精细的3D世界。
让我没想到的是,这个3D世界还允许以第一人称视角探索、转身。
有些小伙伴可能有印象,在11月初,一家公司Decart发布过一个项目Oasis:由AI实时生成游戏Minecraft(《我的世界》)的物理世界。它也能探索、转身。
我还试玩过一段时间,不得不说,Oasis还需要打磨打磨。
其中最让我诟病的是,内容生成的稳定性太差了。本来面前是一片村庄,一转身,就变成新的场景了。
World Labs的“空间智能”模型就很好地解决了这个问题。此前的生成模型大部分是预测像素,而空间智能模型直接预测整个3D场景,所以,场景一旦生成,就会一直稳定存在。
即使你移开视线再回头看,场景也不会在你背后改变。3D场景,怎么转,都有面。
生成3D场景后,还能实时进行探索,在官网贴的demo中也能体验到。
即使在官方demo中,用的都是一些比较梦幻感很强的例子,但与AI生成的视频相比,3D场景中的各种元素,的确要真实得多。
甚至,它还可以模拟相机效果,精准控制摄像头,模拟景深或滑动变焦。
这些成果,还只是World Labs生成3D世界的第一个早期预览。
AI理解3维物理世界,突破空间智能界限
当下,2D的图片/视频生成模型比比皆是,国外的Midjourney,Stable Diffusion、国产的可灵、Vidu、清影等等。
而视频生成模型始终有一个痛点挥之不去:AI视频的稳定性、一致性得不到控制。
而3D模型生成的视频可控性和一致性,成为了新的着眼点。于是从2023年开始,许多厂商开始专攻3D生成模型或升维(2D转3D)模型。
但就现状来说,直到现在,效果好一点/满足需求的3D生成模型实在是屈指可数。
而李飞飞团队的World Labs公司,为我们打了个样。
早在李飞飞在斯坦福大学的实验室的时候,她就已经开始试图教会计算机“如何在3D 世界中行动”了。例如,通过使用LLM让机械臂执行诸如打开门、制作三明治等任务。
后来,她在今年4月开始计划创业,并于9月正式创立World Labs,探索“空间智能”。
关于公司的愿景,李飞飞在温哥华的一次TED会议的演讲中提到:
训练一个,能够理解复杂物理世界,及其内部物体相互关系的AI系统。
至于什么是“空间智能”,她说:
视觉化为洞察,看见成为理解,理解导致行动。
在李飞飞眼里,人类智能可以分为两项:语言智能和空间智能。
一直以来,我们都在LLM等语言智能的路上飞奔前行,而空间智能方面还留有大片空白。
今天,World Labs公布的第一个项目,成为了我们探索空间智能的一块重要拼图,而且还是SOTA级的。
就连英伟达高级计算机科学家Jim Fan也来贺喜:
GenAI正在创建越来越高维度的人类体验快照。SD是2D快照。Sora是一个2D+的快照。现在,World Labs是一个完全身临其境的3D快照。
到现在,我们已经揭开了空间智能的一角。
马上也要到2025年了,我很期待,在新的一年里,还能看到GenAI的最新革命。
参考资料
https://x.com/DrJimFan/status/1863646433435586903
https://www.worldlabs.ai/blog
租售GPU算力
租:4090/A800/H800/H100
售:现货H100/H800
特别适合企业级应用
扫码了解详情☝
热门跟贴