想象这样一个场景:周末你走进一家常去的商场,迎面走来的不是传统的真人导购,而是一个完全脱离了物理屏幕、直接悬浮在半空中的“人”。他不仅能看着你的眼睛自然地打招呼,甚至还能根据你上周看过的某部热门短剧,主动用剧中角色的口吻和你聊起隐藏剧情,顺便向你推荐手里的新品。

在手机的另一端,这些完全由AI生成的演员正在演着一部部播放量破亿的短剧,疯狂地吸纳着全网的流量。一个在云端屏幕里狂奔,一个正在悄然走进现实的物理空间。

打开网易新闻 查看精彩图片

这并非存在于理论设想中的科幻片段,而是当下正在发生的商业重构。当线上爆火的仿真人短剧,撞上物理世界的空间计算入口,一场关于“硅基生命”与“碳基生命”的破壁交融已经拉开帷幕。在这场技术演进中,数字人究竟是如何在空气中“站”起来的?他们又将如何改写现有的商业版图?

打开网易新闻 查看精彩图片

过去三十年,人类的计算革命经历了三次重大的界面变迁。第一阶段是PC时代的图形界面,成就了微软的霸主地位;第二阶段是移动互联网时代的触控界面,苹果和谷歌瓜分了天下。而现在,我们正在跨入第三个时代——空间计算时代。

在这个新时代,AI的交互界面不再局限于一块四四方方的玻璃屏幕,而是发生在真实的物理空间里。

数字人从屏幕里“站”出来,底层依托的是两项核心技术的交汇:自然语言交互能力的成熟,以及新一代显示终端的突破。在具体的落地形态上,区别于需要佩戴的VR/AR眼镜,目前的尖端探索已经实现了无介质三维立体悬浮成像和新一代裸眼3D显示。这意味着数字影像可以直接像一瓶真实的水一样,悬浮在空气中与你面对面交流。

打开网易新闻 查看精彩图片

但随之而来的,是一个极其棘手的物理反馈问题。当人类试图用手去抓取空气中悬浮的虚拟水瓶时,由于缺乏实体,大脑会产生强烈的落空感。为了解决这种交互断层,技术团队引入了极具巧思的视觉补偿机制:当计算机视觉精准识别到人手在空间的位置和骨骼姿态时,会在虚拟物体的附近同步生成一只“虚拟手”。当你的真手做出抓握动作,“虚拟手”在视觉上便牢牢抓住了水瓶,并能将其由远及近拉到你面前。

这种通过视觉欺骗来补足触觉缺失的方案,正是空间计算在现阶段与人类感官系统进行的一场精妙博弈。

打开网易新闻 查看精彩图片

如果说悬浮成像解决了数字人的“肉身”问题,那么让其具备在现实中“听懂人话”的脑力,则是更严酷的挑战。

在安静的单人环境中,人机对答如流已经毫无门槛。但真实的物理世界往往是嘈杂且充满随机性的。以极其典型的医院导诊台为例:无数患者同时围着护士,A患者正焦急地询问在哪挂号,话音未落,B患者猛地打断问去哪取药,紧接着C患者又插嘴询问交费窗口。

打开网易新闻 查看精彩图片

面对这种多人在嘈杂环境下不断交叉打断的场景,传统的语音助手会瞬间陷入逻辑瘫痪。而新一代的空间AI终端,必须具备精准的“记忆能力”。它不仅要在一片混乱中识别出是谁在说话,还要在被多轮打断后,依然记得第一个人最初问了什么,并在间隙给出准确答复。只有跨越了这道技术鸿沟,数字人才能真正从一个“好看的玩具”,变成能在复杂线下场景中顶替人工的生产力工具。

打开网易新闻 查看精彩图片

当数字人的形态越来越逼近真人,并试图在物理空间与我们互动时,一个存在争议的现象开始显现。

部分空间智能终端的测试数据显示,当人类在物理世界面对一个单一的、无限逼近真人的数字人时,内心往往会产生排斥感,也就是著名的“恐怖谷效应”。在某些深度交流场景下,人类反而更愿意对一个呈现为声波形态的非人形界面袒露心扉。

打开网易新闻 查看精彩图片

内容制作端的从业者对此有着截然不同的视角。他们指出,目前的恐怖谷效应,核心原因在于实时驱动和渲染的技术还不够成熟。目前能够实时生成的数字人,在口型、微表情的细腻度上,与非实时的影视级视频模型相比,仍有巨大的鸿沟。如果未来的底层算力能够支撑起完全自然、无延迟的高精度实时渲染,让数字人的表达极其丝滑,这种心理排斥大概率会大幅减弱。

这是一个典型的硬件交互与内容算力之间的赛跑。谁能率先突破渲染的临界点,谁就能定义线下数字人的最终形态。

打开网易新闻 查看精彩图片

拥有了物理空间的躯壳,数字人的“灵魂”从何而来?答案藏在当下最疯狂的流量池里——AI短剧。

这里有一组极具穿透力的商业数据:在2026年的短剧市场,仅仅在抖音平台,AI短剧的投流总盘子在短短几天内就已经超过了9000万。作为对比,去年整个短剧市场的投流盘子约为一点几个亿,当时的AI剧加上慢剧等份额不过2000万左右,占比仅十分之一多;而现在,AI短剧已经占据了整个盘子百分之六七十的惊人份额,彻底超越了真人剧的投流量。

这得益于字节等头部大厂相继推出的最新视频大模型,彻底解决了角色一致性、对口型以及语音配音等行业痛点,实现了影视工业的质变。但这与线下的空间终端有何关联?

打开网易新闻 查看精彩图片

核心在于“人设”的沉淀。过去线下的数字人之所以显得干瘪机械,是因为它们只是毫无背景的问答机器。而现在,AI在云端批量生成的每一部短剧,背后都有几万字甚至几百万字的剧本作为世界观支撑。当这些经过短剧市场反复验证、积攒了大量用户情感连接的虚拟IP,带着丰满的性格经历降临到现实的智能终端时,它们就拥有了真实的“灵魂”。你面对的不再是一个导购,而是一个你曾为之流泪、为之欢呼的具体角色。

打开网易新闻 查看精彩图片

在这场硅基生命全面进化的浪潮中,最终的决战并不在单纯的娱乐内容,而是在广袤的线下商业基础设施。

打开网易新闻 查看精彩图片

在中国,线下拥有着一千多万家消费品零售店,服务着五万多个消费品品牌,其场景密度和市场规模庞大得难以估量。如果能够将空间AI终端以1万台、10万台甚至100万台的规模铺设到这些真实的物理场景中,其商业价值将发生裂变。

想象一下,当百万台终端每天在商场里与真实的人类进行交互,数字人看着你的视线停留、分析你的交互行为、判断你的购买意图。这些海量、高价值的真实世界数据源源不断地回传,将迅速喂养和迭代底层的视觉语言多模态模型(VLM)。终端越多,数据越丰富,数字智能体就越聪明,从而吸引更多的实体店买单安装,形成一个无懈可击的数据飞轮。

在这个逻辑下,空间终端已经不再是一台简单的展示设备,而是类似于网约车平台调度系统的线下流量核心枢纽。

手机屏幕里的一段剧情,到现实物理空间里的精准营销。硅基生命正在云端不知疲倦地演戏、构建人设,随后化身万千,进入真实的商店、医院和家庭,试图无限贴近甚至重塑我们的生活。而作为碳基生命的人类,在享受这份全天候、高智商的贴身服务时,也将不可避免地交出更多维度的行为数据。

当虚与实的边界被彻底打破,当那个你在被窝里追过的短剧主角,明天就真真切切地站在商场拐角对你推销商品时——您觉得这究竟是一次提高全社会运转效率的技术福祉,还是另一场深不见底的流量收割呢?欢迎在评论区,留下您最真实的判断!