vLLM团队创业，种子轮10.5亿！清华特奖游凯超加盟

算法与数学之美

2026-01-25 09:45 ·北京 ·优质互联网领域创作者

开源模型都在用的重要推理框架vLLM，核心团队宣布创业了！

创始团队官宣，成立新公司Inferact，种子轮即斩获1.5亿美元（约10.5亿人民币）融资，估值达8亿美元（约56亿人民币）。

这一规模创下了近期AI基础设施领域的融资新高，也是有史以来规模最大的种子轮融资之一。

投资方指出，随着AI应用落地，行业焦点正从训练转向推理，如何低成本、高可靠地运行现有模型已成为新的痛点。

Inferact正是为了解决这一“推理瓶颈”而生，旨在构建下一代商业引擎以应对大规模部署挑战。

出任CEO的Simon Mo也表示，这反映了市场机遇的广阔，因为在推理规模化阶段，即使是微小的效率提升也能带来显著的成本节省。

vLLM商业化，Inferact正式成立

本次1.5亿美元的种子轮融资由Andreessen Horowitz（a16z）与Lightspeed Venture Partners共同领投。

除了两大领投方，跟投名单中还出现了红杉资本（Sequoia Capital）、Altimeter Capital、Redpoint Ventures以及真格基金（ZhenFund）。

如此豪华的投资规模集中在一家刚成立的初创公司身上，显示出资本市场对于AI基础设施赛道风向的剧烈转变。

a16z合伙人Matt Bornstein指出，随着大模型能力趋于成熟，开发者已不再单纯等待模型架构的更新，而是开始大规模部署现有模型。

这一转变带来了新的难题，即当应用程序需要频繁与大模型进行交互时，算力成本和系统负载会呈指数级上升，推理环节因此成为制约行业发展的最大瓶颈。

市场对于低成本、高可靠运行现有模型的需求，目前已经超过了对新模型研发的期待。

作为Inferact的技术基石，vLLM在此之前已经进入了工业界的实际生产环境。

亚马逊目前已采用该技术，而且是直接应用于自身核心购物应用的内部系统。

这种来自万亿级商业场景的实际部署，在真实的高并发流量下验证了技术的稳定性，也让资本市场看到了技术在大规模商业落地上的确定性。

面对开源与商业化的平衡问题，Inferact目前的策略是维持双线并行。

公司明确表示将继续支持vLLM作为一个独立的开源项目发展，并将技术改进回馈给社区。

在商业层面，团队将目光投向了硬件适配的效率问题，计划开发独立的商业产品，帮助企业在不同类型的硬件上运行AI模型。

从vLLM到Inferact

vLLM创立之初，团队自己都认为是一个“副业”项目。

但如今的Inferact时刻前夕，vLLM已成为大模型领域的事实标准，几乎所有主流开源大模型在发布与部署时，都会将vLLM作为首选支持的推理框架。

在a16z合伙人Matt Bornstein主持的深度对谈中，Simon Mo和Woosuk Kwon回溯了vLLM如何从一个不起眼的“副业”一步步走到聚光灯下的全过程。

最初，vLLM仅仅是两人在伯克利求学期间的一个Side Project，驱动代码更新的动力源于一种极其朴素的技术信仰——

他们坚信，在这个大模型重塑世界的时代，开源代码必须是全球AI基础设施的地基。

这种纯粹的初衷，让vLLM在没有商业推广的情况下，迅速成为了开发者社区的宠儿。

然而，随着项目从实验室走向工业界，团队的角色发生了质的转变。

作为核心维护者，他们不仅是在写代码，更是在与全球最顶尖的开发者协作，这种高强度的社区互动成为了他们技术能力的“炼金石”。

他们积累了独有的技术洞察，并确立了在行业内的权威身份，构成了后来他们能够驾驭一家独角兽企业的底层能力。

但在这一过程中，现实的引力也越来越重。他们发现，当推理任务从简单的Demo演示变成数千张GPU集群的生产级部署时，挑战的量级呈指数级上升。

“推理正在变得越来越难”，这是团队在第一线摸爬滚打后得出的痛切结论。

现有的开源方案在面对深度底层优化、大规模集群的线性扩展以及复杂的GPU部署流程时，往往显得力不从心。

企业需要的不再是零散的代码库，而是能够稳定承载万亿次调用的工业级引擎。

为了攻克那些开源社区难以消化的“硬骨头”，必须引入严密的商业组织形式构建下一代引擎。

与此同时，为了在商业化的同时保证开源项目继续运行，Inferact设计了一套独特的反哺机制，利用商业资源继续滋养vLLM，确保这个曾经的副业项目能继续作为行业的基石繁荣生长。

伯克利博士携手清华特奖

Inferact的CEO由Simon Mo担任。

他曾就读于加州大学伯克利分校电气工程与计算机科学系（EECS），主攻机器学习系统设计方向。

在此之前，他是Anyscale的早期工程师，积累了将分布式系统科研成果转化为工业级产品的工程实践经验。

作为vLLM项目的原始维护者之一，他主要负责项目的工程化构建与社区运营。

另一位联合创始人是vLLM项目的发起人Woosuk Kwon。

他拥有加州大学伯克利分校计算机科学博士学位，师从Ion Stoica教授，研究重点聚焦于大语言模型的高效服务系统。

他在博士期间提出了Paged Attention算法，通过引入操作系统中分页内存管理的思想，解决了KV Cache显存碎片化问题，这一算法创新为vLLM在吞吐量性能上的提升提供了核心技术支撑。

团队的核心技术力量还包括清华特奖得主游凯超（Kaichao You）。

他曾在加州大学伯克利分校EECS系担任访问学者，主攻分布式深度学习系统。

作为vLLM的关键维护者，他主导了基于张量并行的分布式推理功能实现，并优化了与PyTorch原生生态的集成接口，使得vLLM能够支持多卡大规模模型推理并降低了开发者的迁移成本。

此外，核心团队与顾问团还集结了学术界与工业界的资深力量。

前Roblox高级机器学习工程师Roger Wang作为核心成员加入，为团队带来了生产级基础设施的实战经验；

加州大学伯克利分校教授Joseph Gonzalez以及Databricks联合创始人Ion Stoica教授则作为顾问深度参与其中，为公司提供技术愿景与商业路径的顶层指导。

参考链接：
[1]https://www.bloomberg.com/news/articles/2026-01-22/andreessen-backed-inferact-raises-150-million-in-seed-round
[2]https://x.com/a16z/status/2014394081452163231

文章来源：量子位。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴