开源模型都在用的重要推理框架vLLM,核心团队宣布创业了!

创始团队官宣,成立新公司Inferact,种子轮即斩获1.5亿美元(约10.5亿人民币)融资,估值达8亿美元(约56亿人民币)。

这一规模创下了近期AI基础设施领域的融资新高,也是有史以来规模最大的种子轮融资之一。

打开网易新闻 查看精彩图片

投资方指出,随着AI应用落地,行业焦点正从训练转向推理,如何低成本、高可靠地运行现有模型已成为新的痛点。

Inferact正是为了解决这一“推理瓶颈”而生,旨在构建下一代商业引擎以应对大规模部署挑战。

出任CEO的Simon Mo也表示,这反映了市场机遇的广阔,因为在推理规模化阶段,即使是微小的效率提升也能带来显著的成本节省。

vLLM商业化,Inferact正式成立

本次1.5亿美元的种子轮融资由Andreessen Horowitz(a16z)与Lightspeed Venture Partners共同领投。

除了两大领投方,跟投名单中还出现了红杉资本(Sequoia Capital)、Altimeter Capital、Redpoint Ventures以及真格基金(ZhenFund)。

如此豪华的投资规模集中在一家刚成立的初创公司身上,显示出资本市场对于AI基础设施赛道风向的剧烈转变。

a16z合伙人Matt Bornstein指出,随着大模型能力趋于成熟,开发者已不再单纯等待模型架构的更新,而是开始大规模部署现有模型

这一转变带来了新的难题,即当应用程序需要频繁与大模型进行交互时,算力成本和系统负载会呈指数级上升,推理环节因此成为制约行业发展的最大瓶颈。

市场对于低成本、高可靠运行现有模型的需求,目前已经超过了对新模型研发的期待。

作为Inferact的技术基石,vLLM在此之前已经进入了工业界的实际生产环境。

亚马逊目前已采用该技术,而且是直接应用于自身核心购物应用的内部系统。

这种来自万亿级商业场景的实际部署,在真实的高并发流量下验证了技术的稳定性,也让资本市场看到了技术在大规模商业落地上的确定性。

面对开源与商业化的平衡问题,Inferact目前的策略是维持双线并行。

公司明确表示将继续支持vLLM作为一个独立的开源项目发展,并将技术改进回馈给社区。

在商业层面,团队将目光投向了硬件适配的效率问题,计划开发独立的商业产品,帮助企业在不同类型的硬件上运行AI模型。

从vLLM到Inferact

vLLM创立之初,团队自己都认为是一个“副业”项目。

但如今的Inferact时刻前夕,vLLM已成为大模型领域的事实标准,几乎所有主流开源大模型在发布与部署时,都会将vLLM作为首选支持的推理框架。

在a16z合伙人Matt Bornstein主持的深度对谈中,Simon Mo和Woosuk Kwon回溯了vLLM如何从一个不起眼的“副业”一步步走到聚光灯下的全过程。

打开网易新闻 查看精彩图片

最初,vLLM仅仅是两人在伯克利求学期间的一个Side Project,驱动代码更新的动力源于一种极其朴素的技术信仰——

他们坚信,在这个大模型重塑世界的时代,开源代码必须是全球AI基础设施的地基。

这种纯粹的初衷,让vLLM在没有商业推广的情况下,迅速成为了开发者社区的宠儿。

然而,随着项目从实验室走向工业界,团队的角色发生了质的转变。

作为核心维护者,他们不仅是在写代码,更是在与全球最顶尖的开发者协作,这种高强度的社区互动成为了他们技术能力的“炼金石”。

他们积累了独有的技术洞察,并确立了在行业内的权威身份,构成了后来他们能够驾驭一家独角兽企业的底层能力。

但在这一过程中,现实的引力也越来越重。他们发现,当推理任务从简单的Demo演示变成数千张GPU集群的生产级部署时,挑战的量级呈指数级上升。

“推理正在变得越来越难”,这是团队在第一线摸爬滚打后得出的痛切结论。

现有的开源方案在面对深度底层优化、大规模集群的线性扩展以及复杂的GPU部署流程时,往往显得力不从心。

企业需要的不再是零散的代码库,而是能够稳定承载万亿次调用的工业级引擎。

为了攻克那些开源社区难以消化的“硬骨头”,必须引入严密的商业组织形式构建下一代引擎。

与此同时,为了在商业化的同时保证开源项目继续运行,Inferact设计了一套独特的反哺机制,利用商业资源继续滋养vLLM,确保这个曾经的副业项目能继续作为行业的基石繁荣生长。

伯克利博士携手清华特奖

Inferact的CEO由Simon Mo担任。

他曾就读于加州大学伯克利分校电气工程与计算机科学系(EECS),主攻机器学习系统设计方向。

在此之前,他是Anyscale的早期工程师,积累了将分布式系统科研成果转化为工业级产品的工程实践经验。

作为vLLM项目的原始维护者之一,他主要负责项目的工程化构建与社区运营。

打开网易新闻 查看精彩图片

另一位联合创始人是vLLM项目的发起人Woosuk Kwon

他拥有加州大学伯克利分校计算机科学博士学位,师从Ion Stoica教授,研究重点聚焦于大语言模型的高效服务系统。

他在博士期间提出了Paged Attention算法,通过引入操作系统中分页内存管理的思想,解决了KV Cache显存碎片化问题,这一算法创新为vLLM在吞吐量性能上的提升提供了核心技术支撑。

打开网易新闻 查看精彩图片

团队的核心技术力量还包括清华特奖得主游凯超(Kaichao You)。

他曾在加州大学伯克利分校EECS系担任访问学者,主攻分布式深度学习系统。

作为vLLM的关键维护者,他主导了基于张量并行的分布式推理功能实现,并优化了与PyTorch原生生态的集成接口,使得vLLM能够支持多卡大规模模型推理并降低了开发者的迁移成本。

打开网易新闻 查看精彩图片

此外,核心团队与顾问团还集结了学术界与工业界的资深力量。

前Roblox高级机器学习工程师Roger Wang作为核心成员加入,为团队带来了生产级基础设施的实战经验;

加州大学伯克利分校教授Joseph Gonzalez以及Databricks联合创始人Ion Stoica教授则作为顾问深度参与其中,为公司提供技术愿景与商业路径的顶层指导。

参考链接:
[1]https://www.bloomberg.com/news/articles/2026-01-22/andreessen-backed-inferact-raises-150-million-in-seed-round
[2]https://x.com/a16z/status/2014394081452163231

文章来源:量子位。