凌晨两点,你对着手机说"播放助眠音乐",智能音箱却用机械音回复"未识别指令"。这种挫败感,正是ElevenLabs创始人Mati Staniszewski想要消灭的场景——而他现在手握11亿美元估值,背后站着黑石、英伟达,还有《鱿鱼游戏》的导演。

谁在投资:一张横跨金融与娱乐的名单

打开网易新闻 查看精彩图片

ElevenLabs最新披露的D轮融资名单,打破了科技融资的常规剧本。

机构侧,黑石(BlackRock)、惠灵顿(Wellington)、D.E. Shaw、施罗德(Schroders)四家资管巨头入局。企业投资方更耐人寻味:英伟达、Salesforce、桑坦德银行、荷兰电信KPN、德国电信——每一家都代表一条潜在的业务线。

个人投资者名单则像一份金球奖提名:Jamie Foxx、Eva Longoria,以及《鱿鱼游戏》创作者黄东赫。

这种组合在AI融资中极为罕见。通常,明星投资要么是早期小额跟投,要么是品牌代言的变体。但ElevenLabs的D轮总额达5亿美元,明星们的参与意味着真金白银的财务判断,而非简单的站台。

一个可能的解释是:语音AI的终端场景天然靠近娱乐产业。从有声书到游戏配音,从虚拟偶像到影视本地化,这些正是Foxx和Longoria的日常业务半径。他们的投资,或许是对"这项技术将重构我的行业"的投票。

财务数据:从3.5亿到5亿的ARR跃迁

ElevenLabs的财务表现解释了为何资本愿意打破常规。

2024年底,公司年度经常性收入(ARR)接近3.5亿美元。今年第一季度,净新增ARR达1亿美元,季度末ARR约4.5亿美元。目前,这一数字已突破5亿美元。

这意味着什么?从3.5亿到5亿,ElevenLabs用不到半年时间完成了43%的增长。更关键的是,这种增长发生在估值从66亿飙升至110亿美元的同一时期——投资者用钱包验证了"高增速配得上高估值"的叙事。

Staniszewski在博客中透露,公司还完成了1亿美元的二次要约收购(tender offer),这是继去年9月后的第二次。半年内两次要约,通常意味着早期股东和员工有强烈的变现需求,而公司愿意用现金满足这种需求,而非被迫上市。

另一个信号:ElevenLabs计划通过Robinhood Ventures向散户开放投资渠道。细节未披露,但这标志着公司从"机构专属"向"公众资产"的过渡意图。

企业客户:电信与金融的语音刚需

资本追逐的从来不是概念,而是可验证的付费意愿。

过去一个季度,ElevenLabs签下了德国电信、Revolut、Klarna三家企业合同。这三家的共性很明显——都需要处理海量、多语言、高并发的语音交互。

德国电信创投董事总经理Karine Peters的表态值得逐句拆解:

「语音是任何客户互动中风险最高的渠道,对质量、延迟和安全性的要求极高。」

这句话定义了ElevenLabs的战场边界。不是"让机器说话",而是"让机器在关键时刻说话而不出错"。客服电话、银行验证、紧急通知——这些场景的容错率接近于零。

Peters继续:「ElevenLabs不仅是品类领导者,更正在成为德国电信工业人工智能愿景的基础赋能者。从语音即服务到多语言自动化,再到网络内人工智能代理,我们相信该公司具备独特优势,能够重塑企业跨所有渠道与客户互动的方式。」

这里的关键词是"基础赋能者"(foundational enabler)。德国电信不是在采购一个工具,而是在押注一个基础设施层。这种定位的溢价空间,远高于单一功能软件。

Revolut和Klarna的加入则指向另一个维度:金融科技对语音生物识别和反欺诈的需求。当银行电话核实用户身份时,声音的真实性就是安全本身。

技术路线:人类级语音模型的执念

Staniszewski对产品方向的判断很直接:

「消费者不会信任听起来像机器人或交互方式奇怪的系统。」

这看似常识,但执行层面的难度被严重低估。当前多数语音AI的"自然感"停留在句子层面——单个句子流畅,但对话中的停顿、打断、情绪转折、语境记忆,依然是技术深水区。

ElevenLabs的应对是收购。上个月,公司收购了波兰语音AI创业公司Papla的团队,以加强研究力量。Papla的具体技术细节未披露,但波兰作为东欧AI人才聚集地,其语音处理传统可追溯至早期的语音识别研究。

Staniszewski强调的"人类级语音模型"(human-level AI voice models),在行业内尚无统一定义。但可以确定的是,这不止于声学层面的逼真,还包括对话策略、情感计算、多轮记忆等上层能力。

一个未被回答的问题是:ElevenLabs是否会将技术栈延伸至语音之外?当前的产品形态是"声音生成",但客户采购的终极目的是"完成交互"。当竞争对手开始整合视觉、文本、动作多模态时,纯语音玩家的天花板是否足够高?

估值逻辑:从66亿到110亿的六个月

去年9月,ElevenLabs估值66亿美元。今年2月,D轮融资将其推至110亿美元。六个月增长67%,在2025年的AI融资环境中并非孤例,但背后的估值公式值得拆解。

按当前5亿美元ARR计算,ElevenLabs的估值倍数约为22倍。作为参照,成熟SaaS公司的ARR倍数通常在10-15倍,高增长AI公司可达20-30倍。ElevenLabs处于这个区间的上沿,但并未脱离理性范围。

真正支撑溢价的是"语音基础设施"的叙事。如果语音确实如Peters所说,成为"最高风险的客户互动渠道",那么掌握这一环节的公司将享有类似云计算厂商的地位——不是按功能收费,而是按用量和关键性收费。

英伟达的投资尤其值得关注。这家GPU巨头极少直接参与应用层融资,其出手通常意味着:第一,ElevenLabs的技术栈与英伟达的推理基础设施有深度耦合;第二,语音AI的算力需求将被证明是英伟达的新增长曲线。

行业影响:语音交互的临界点

ElevenLabs的融资事件,可以放在更大的行业坐标中观察。

2023-2024年,大语言模型的竞争焦点在文本。2025年,多模态成为标配,而语音是最接近商业化的模态之一——因为它直接替代现有的呼叫中心、客服系统、语音助手,无需教育市场。

德国电信、桑坦德、KPN等电信和金融巨头的集体入场,标志着一个转折点:语音AI从"创新实验"变为"运营必需"。这些机构的采购决策周期通常以年计,它们的同步行动说明,技术成熟度已经跨过了内部评估的门槛。

对创业者而言,ElevenLabs的路径提供了一个参照:在巨头环伺的AI赛道,垂直深耕单一模态可能比追逐全能模型更具商业效率。OpenAI、Google DeepMind拥有更广泛的研发资源,但企业客户愿意为"专门解决问题"支付溢价,而非为"可能解决一切"承担不确定性。

对投资者来说,这轮融资的混合结构——机构+企业+明星——可能成为一种新模板。传统风投提供资金,战略投资者提供场景验证,行业名人提供市场教育和品牌背书。三者的组合,比单一资金来源更能降低信息不对称。

实用判断:这件事为什么重要

ElevenLabs的5亿美元融资和110亿美元估值,不是一个孤立的资本事件。它标志着语音AI从"技术可行"进入"商业必需"的阶段。

对科技从业者,关键信号有三:

第一,企业客户的付费意愿已经验证。德国电信、Revolut、Klarna的采购不是试点预算,而是核心运营支出。这意味着语音AI的商业模式从"按项目"转向"按订阅",现金流可预测性大幅提升。

第二,基础设施层的竞争格局尚未锁定。英伟达的直接投资表明,语音AI的算力优化空间仍然巨大。对于擅长工程优化的团队,这仍是入场窗口。

第三,多模态整合的压力真实存在。ElevenLabs当前的优势在语音生成,但客户最终需要完整的交互系统。是自建视觉和文本能力,还是与现有平台深度集成,将决定其能否维持"基础赋能者"的定位。

如果你正在评估语音相关的创业机会或职业选择,ElevenLabs的财务数据提供了一个基准:5亿美元ARR、22倍估值倍数、半年43%增速。达到或超越这些数字,需要的不只是技术,更是对"人类级交互"执念般的执行。