真格基金是开源项目 vLLM 的早期捐赠人。我们见证了 vLLM 团队对技术的前瞻判断与极致追求,也深深被他们为开源生态作出的卓越贡献所打动。非常激动能够从第一天起,继续支持由 vLLM 核心团队创办的 Inferact。祝贺 Simon,Woosuk,Kaichao,Roger,Ion 等创始团队成员!期待 Inferact 在他们的带领下,打造世界级的 AI 推理引擎,加速整个 AI 产业的进步。
真格基金管理合伙人戴雨森
1 月 22 日,由开源软件 vLLM 核心团队创立的 AI 初创公司 Inferact 正式宣布完成 1.5 亿美元的种子轮融资,公司估值达到 8 亿美元。本轮融资由 Andreessen Horowitz 与 Lightspeed 领投,真格基金与 Sequoia Capital、Altimeter Capital、Redpoint Ventures 等硅谷顶级 VC 跟投。
成立于 2025 年 11 月的 Inferact 诞生于 vLLM 社区长期实践的基础之上。vLLM 是当下最重要的开源推理引擎之一,也是整个开源世界中规模最大的项目之一。今天,vLLM 已支持 500 余种模型架构,运行在 200 多种加速器之上,在全球范围内承载着真实且大规模的推理负载,累计拥有 2000 多名贡献者。Meta、Google、Character.ai 等多家公司也已在生产环境中使用 vLLM。2024 年 7 月,真格宣布捐赠支持 vLLM,一路陪伴核心团队从一个开源项目走到今天。
Inferact 成立后,来自 vLLM 核心团队的 Simon Mo 将出任 Inferact CEO,Woosuk 任 CTO,Kaichao(游凯超)任首席科学家。团队还包括 Roger Wang、伯克利大学计算机系教授 Ion Stoica 等联合创始人和十几位创始团队成员。他们的使命十分明确:把 vLLM 打造成世界级的 AI 推理引擎,通过让推理变得更便宜、更高效,来加速整个 AI 产业的进步。
Inferact 联合创始人兼 CTO Woosuk Kwon 在 X 上宣布公司成立的推文中提到:
当前,AI 行业正经历一轮明确的迁移:从训练端的能力不足与不稳定性,快速转向推理端的资源受限和执行效率问题。随之而来的是推理需求的爆发式增长,而且很可能是超线性的。随着 Agent 执行步数增加、单步所需 token 数上升,推理负载本身正在变得愈发复杂。
模型规模持续增长,新架构层出不穷。从 MoE、多模态到智能体化,几乎每一次模型能力的突破,都会提出全新的基础设施要求;硬件端也在不断碎片化,出现了更多类型的加速器、更多编程模型以及更多需要被优化的组合。
模型能力与承载它们的系统方案之间正在形成越来越大的鸿沟。最强大的模型受限于算力瓶颈,全部潜力只能被少数拥有定制化基础设施能力的团队完全释放。且这一问题仍在加剧。推理正从计算资源中的「一小部分」演变为「绝对主体」:test-time compute、RL 训练闭环及合成数据生成,都在不断推高对推理的需求。
惟有补上这层差距,新的可能性才会真正打开。
这一理念源自 vLLM 的起点。
2022 年,在 ChatGPT 发布之前,vLLM 团队曾在加州大学伯克利分校内部搭建过一个大语言模型 demo。当时部署在服务器上的还是 Facebook 的 OPT-175B,目的是为了展示团队此前一个用于自动化模型定型与推理的研究项目 alpha。但在部署过程中,团队很快发现 demo 运行缓慢、GPU 利用率极低,这让他们意识到:大语言模型的瓶颈并不只在模型本身,推理阶段的系统层问题同样关键。随着模型规模扩大,仅靠模型层优化已经远远不够。
Inferact CEO Simon Mo 曾在 2024 年做客真格播客「此话当真」时分享:「在推理过程中,单点的算子优化当然重要,但真正有效的,是跨请求、跨任务的系统级优化。当时市面上几乎没有任何专门针对大语言模型推理优化的开源系统,所以我们决定自己动手,从零开始做一个。」
在随后的实践中,团队进一步定位到 GPU 显存管理这一核心瓶颈。传统的内存管理方式存在大量浪费,严重限制了吞吐与并发能力。经过多轮迭代,vLLM 团队提出了新的 attention 计算方法 PagedAttention,借鉴操作系统中的 Paging 与虚拟内存机制,对 Transformer 中 attention 所使用的 KV Cache 进行管理,从而显著降低显存占用,并提升整体吞吐能力。这一技术突破成为 vLLM 乃至 Inferact 的重要起点。
vLLM 位于模型与硬件交汇的关键位置,而这个位置,是用多年时间一点点打磨出来的。
正如同样诞生于伯克利、随后成长为独角兽的 Apache Spark、Ray 等项目一样,Inferact 也是在持续运营一个被全球顶级公司真实使用的开源社区中,汇聚了大量优秀开发者的长期贡献,同时打磨出了一支推动智能边界、具备清晰使命感的团队。
伯克利的开源传统本质上是一种「碰撞机制」,让学界最新的想法与真实的生产环境和用例相遇,也让更具探索性的研究思维与业界务实的工程取向不断摩擦。双方彼此学习,最终孕育出既实用又能引领范式变化的开源项目。
这一机制也体现在 vLLM 的成长路径中。当模型厂商推出新的架构时,会第一时间与 vLLM 协作,确保 Day-zero 支持;当硬件厂商设计新的芯片时,也会直接与 vLLM 集成;而从前沿实验室、云厂商到服务数百万用户的初创公司,在规模化部署时,运行在生产环境中的仍是 vLLM。这个由 2000 多名贡献者共同构建的生态构成了 vLLM 和 Inferact 最坚实、也最难以复制的基础。
Inferact 表示,公司的首要任务始终是以独立开源项目的形式持续支持 vLLM,并将所有改进回馈社区;同时,Inferact 将开发商业化产品以帮助企业在不同类型的硬件上更高效、更稳定地运行 AI 模型。
Inferact 看到的未来是:AI 的部署与服务将变得像基础设施一样轻松。
Woosuk Kwon 在官宣推文的最后展望:「大规模部署一个前沿模型仍需要一整支专业的基础设施团队。而在未来,这件事理应像启动一个 serverless 数据库一样简单。复杂性不会消失——它将被吸收进 Inferact 正在构建的基础设施之中。」
热门跟贴