一家语音公司为何让黑石和好莱坞明星同时下注|人工智能|好莱坞|德国电信|知名企业|英伟达|语音公司|语音识别|谷歌|黑石

凌晨两点，你对着手机说"播放助眠音乐"，智能音箱却用机械音回复"未识别指令"。这种挫败感，正是ElevenLabs创始人Mati Staniszewski想要消灭的场景——而他现在手握11亿美元估值，背后站着黑石、英伟达，还有《鱿鱼游戏》的导演。

谁在投资：一张横跨金融与娱乐的名单

ElevenLabs最新披露的D轮融资名单，打破了科技融资的常规剧本。

机构侧，黑石（BlackRock）、惠灵顿（Wellington）、D.E. Shaw、施罗德（Schroders）四家资管巨头入局。企业投资方更耐人寻味：英伟达、Salesforce、桑坦德银行、荷兰电信KPN、德国电信——每一家都代表一条潜在的业务线。

个人投资者名单则像一份金球奖提名：Jamie Foxx、Eva Longoria，以及《鱿鱼游戏》创作者黄东赫。

这种组合在AI融资中极为罕见。通常，明星投资要么是早期小额跟投，要么是品牌代言的变体。但ElevenLabs的D轮总额达5亿美元，明星们的参与意味着真金白银的财务判断，而非简单的站台。

一个可能的解释是：语音AI的终端场景天然靠近娱乐产业。从有声书到游戏配音，从虚拟偶像到影视本地化，这些正是Foxx和Longoria的日常业务半径。他们的投资，或许是对"这项技术将重构我的行业"的投票。

财务数据：从3.5亿到5亿的ARR跃迁

ElevenLabs的财务表现解释了为何资本愿意打破常规。

2024年底，公司年度经常性收入（ARR）接近3.5亿美元。今年第一季度，净新增ARR达1亿美元，季度末ARR约4.5亿美元。目前，这一数字已突破5亿美元。

这意味着什么？从3.5亿到5亿，ElevenLabs用不到半年时间完成了43%的增长。更关键的是，这种增长发生在估值从66亿飙升至110亿美元的同一时期——投资者用钱包验证了"高增速配得上高估值"的叙事。

Staniszewski在博客中透露，公司还完成了1亿美元的二次要约收购（tender offer），这是继去年9月后的第二次。半年内两次要约，通常意味着早期股东和员工有强烈的变现需求，而公司愿意用现金满足这种需求，而非被迫上市。

另一个信号：ElevenLabs计划通过Robinhood Ventures向散户开放投资渠道。细节未披露，但这标志着公司从"机构专属"向"公众资产"的过渡意图。

企业客户：电信与金融的语音刚需

资本追逐的从来不是概念，而是可验证的付费意愿。

过去一个季度，ElevenLabs签下了德国电信、Revolut、Klarna三家企业合同。这三家的共性很明显——都需要处理海量、多语言、高并发的语音交互。

德国电信创投董事总经理Karine Peters的表态值得逐句拆解：

「语音是任何客户互动中风险最高的渠道，对质量、延迟和安全性的要求极高。」

这句话定义了ElevenLabs的战场边界。不是"让机器说话"，而是"让机器在关键时刻说话而不出错"。客服电话、银行验证、紧急通知——这些场景的容错率接近于零。

Peters继续：「ElevenLabs不仅是品类领导者，更正在成为德国电信工业人工智能愿景的基础赋能者。从语音即服务到多语言自动化，再到网络内人工智能代理，我们相信该公司具备独特优势，能够重塑企业跨所有渠道与客户互动的方式。」

这里的关键词是"基础赋能者"（foundational enabler）。德国电信不是在采购一个工具，而是在押注一个基础设施层。这种定位的溢价空间，远高于单一功能软件。

Revolut和Klarna的加入则指向另一个维度：金融科技对语音生物识别和反欺诈的需求。当银行电话核实用户身份时，声音的真实性就是安全本身。

技术路线：人类级语音模型的执念

Staniszewski对产品方向的判断很直接：

「消费者不会信任听起来像机器人或交互方式奇怪的系统。」

这看似常识，但执行层面的难度被严重低估。当前多数语音AI的"自然感"停留在句子层面——单个句子流畅，但对话中的停顿、打断、情绪转折、语境记忆，依然是技术深水区。

ElevenLabs的应对是收购。上个月，公司收购了波兰语音AI创业公司Papla的团队，以加强研究力量。Papla的具体技术细节未披露，但波兰作为东欧AI人才聚集地，其语音处理传统可追溯至早期的语音识别研究。

Staniszewski强调的"人类级语音模型"（human-level AI voice models），在行业内尚无统一定义。但可以确定的是，这不止于声学层面的逼真，还包括对话策略、情感计算、多轮记忆等上层能力。

一个未被回答的问题是：ElevenLabs是否会将技术栈延伸至语音之外？当前的产品形态是"声音生成"，但客户采购的终极目的是"完成交互"。当竞争对手开始整合视觉、文本、动作多模态时，纯语音玩家的天花板是否足够高？

估值逻辑：从66亿到110亿的六个月

去年9月，ElevenLabs估值66亿美元。今年2月，D轮融资将其推至110亿美元。六个月增长67%，在2025年的AI融资环境中并非孤例，但背后的估值公式值得拆解。

按当前5亿美元ARR计算，ElevenLabs的估值倍数约为22倍。作为参照，成熟SaaS公司的ARR倍数通常在10-15倍，高增长AI公司可达20-30倍。ElevenLabs处于这个区间的上沿，但并未脱离理性范围。

真正支撑溢价的是"语音基础设施"的叙事。如果语音确实如Peters所说，成为"最高风险的客户互动渠道"，那么掌握这一环节的公司将享有类似云计算厂商的地位——不是按功能收费，而是按用量和关键性收费。

英伟达的投资尤其值得关注。这家GPU巨头极少直接参与应用层融资，其出手通常意味着：第一，ElevenLabs的技术栈与英伟达的推理基础设施有深度耦合；第二，语音AI的算力需求将被证明是英伟达的新增长曲线。

行业影响：语音交互的临界点

ElevenLabs的融资事件，可以放在更大的行业坐标中观察。

2023-2024年，大语言模型的竞争焦点在文本。2025年，多模态成为标配，而语音是最接近商业化的模态之一——因为它直接替代现有的呼叫中心、客服系统、语音助手，无需教育市场。

德国电信、桑坦德、KPN等电信和金融巨头的集体入场，标志着一个转折点：语音AI从"创新实验"变为"运营必需"。这些机构的采购决策周期通常以年计，它们的同步行动说明，技术成熟度已经跨过了内部评估的门槛。

对创业者而言，ElevenLabs的路径提供了一个参照：在巨头环伺的AI赛道，垂直深耕单一模态可能比追逐全能模型更具商业效率。OpenAI、Google DeepMind拥有更广泛的研发资源，但企业客户愿意为"专门解决问题"支付溢价，而非为"可能解决一切"承担不确定性。

对投资者来说，这轮融资的混合结构——机构+企业+明星——可能成为一种新模板。传统风投提供资金，战略投资者提供场景验证，行业名人提供市场教育和品牌背书。三者的组合，比单一资金来源更能降低信息不对称。

实用判断：这件事为什么重要

ElevenLabs的5亿美元融资和110亿美元估值，不是一个孤立的资本事件。它标志着语音AI从"技术可行"进入"商业必需"的阶段。

对科技从业者，关键信号有三：

第一，企业客户的付费意愿已经验证。德国电信、Revolut、Klarna的采购不是试点预算，而是核心运营支出。这意味着语音AI的商业模式从"按项目"转向"按订阅"，现金流可预测性大幅提升。

第二，基础设施层的竞争格局尚未锁定。英伟达的直接投资表明，语音AI的算力优化空间仍然巨大。对于擅长工程优化的团队，这仍是入场窗口。

第三，多模态整合的压力真实存在。ElevenLabs当前的优势在语音生成，但客户最终需要完整的交互系统。是自建视觉和文本能力，还是与现有平台深度集成，将决定其能否维持"基础赋能者"的定位。

如果你正在评估语音相关的创业机会或职业选择，ElevenLabs的财务数据提供了一个基准：5亿美元ARR、22倍估值倍数、半年43%增速。达到或超越这些数字，需要的不只是技术，更是对"人类级交互"执念般的执行。

一家语音公司为何让黑石和好莱坞明星同时下注

热搜

热门跟贴

热搜

热门跟贴

相关推荐

黑石高盛联手Anthropic，AI落地要换玩法了？

好莱坞明星挤破头去百老汇图什么

好莱坞最烧钱的片场恩怨：4亿官司如何收场

石头人终究败给人海战术

E45 孟岩对话李继刚：人何以自处

声音的吸引力有多强，开口一句就镇住了，老外这方面确实有天赋！

星爷被资本做了局

硬挤上位的明星够拼的

好莱坞级制作：一场被低估的技术暗战

有钱人寻求刺激的方式让人大开眼界

华谊兄弟得罪了这位大佬

巨星都不敢这样摆谱

想当明星就要付出一些代价

Netflix花2亿请回的他，被两个龙套抢了戏

二十亿美金面前黑白难分

潞晨尤洋谈三类需要私有大模型的企业

光轮智能CEO谢晨：具身数据金字塔的本质是以仿真为中心的闭环

高盛：企业级智能体将推动全球Token消耗量在五年内增长24倍

刷新国内原生AGI Infra单笔最大融资纪录！无问芯穹完成超7亿融资

月薪3000富养猫狗，宠物经济有多疯狂