【摘要】AI芯片的竞争正在转向"谁能把每个token算得更便宜"。深明奥思LPU是面向大语言模型推理流程重新设计的计算架构,通过数据流计算、软硬协同和板卡级交付,解决低延迟、高安全、低功耗的本地推理需求。
01 从抢GPU到算token
过去两年,AI产业的核心叙事围绕GPU展开。但当大模型走向企业与终端,一个核心矛盾浮现:训练是一次性研发投入,推理却是每天持续发生的运营成本。
tokens/s、tokens/W、上下文长度、部署成本——这些推理侧指标,正取代参数规模成为产业关注焦点。一个智能体如果每天调用上千次模型,单位token的经济性就是核心约束。这也是LPU——LLM Processing Unit——在当下变得重要的原因。
端侧推理同样在被重新定义。过去说端侧AI,很多人联想到耳机、手机、座舱语音这类轻量任务。但深明奥思创始人张强指出,真正高价值的端侧推理将出现在政务、金融、律所、研发、制造、医疗等场景:数据不能上云、知识产权不能外泄、延迟不能不可控。AI一旦从聊天工具变成生产工具,采购逻辑就成立——只要它能在数月内创造足够回报。这些场景对芯片的要求不是更万能,而是在成本、功耗、带宽与本地化之间取得更优平衡。
未来MoE模型和长上下文将进一步抬高带宽与存储需求。以传统低功耗小芯片的思路做端侧大模型,架构定义层面即存在先天瓶颈。AI基础设施将形成云端、边缘端和设备端并存格局:云端负责大规模算力调度,边缘与设备端承担低延迟、高安全的本地推理任务。
02 LPU的推理架构逻辑
判断一颗芯片是否真正面向大模型推理设计,不能只看它是否被冠以"LPU"之名,更要看其计算方式、数据通路和软件栈是否发生了系统性变化。深明奥思LPU的架构逻辑,可以从一个核心转变说起。
传统通用计算架构在运行时不断处理任务调度、缓存命中和执行顺序等问题。LPU的设计理念则反其道行之:面向大模型推理中相对稳定、重复且带宽敏感的计算路径,在编译期提前规划计算图、数据通路和存储分配,让数据沿预设路径持续流动,实现数据驱动的执行触发(data-driven execution)。换言之,LPU不是在运行时"见招拆招",而是在编译期就把推理全程的"剧本"写好。对Transformer这类逐层前向推进的模型,这种方式天然贴合其执行过程——权重、激活值、KV cache可被组织为连续、可预测的数据流,从而提升有效带宽利用率并稳定推理延迟。
之所以强调带宽利用率,是因为大模型推理的真正瓶颈往往不在算力本身,而在存储层级间的冗余数据搬移。GPU/NPU也会通过缓存层级和片上SRAM提升数据复用,但它们需要兼顾广泛的任务形态。LPU的差异在于围绕prefill、decode、KV cache访问和矩阵/向量算子进行专项优化,通过自研数据流通路减少DDR到计算阵列间的搬运开销。根据公司架构设计目标,LPU在典型推理负载下有效带宽利用率目标达85%以上。在长上下文和连续decode场景中,这一指标直接决定单位token的能效和成本。
但仅有硬件层面的优化远远不够。大模型演进速度极快——模型结构、算子形态、量化方式、MoE路由和上下文长度都在持续变化。如果芯片仍沿用"硬件先行、软件补课"的模式,量产时就可能已经落后于模型生态。因此,深明奥思让指令集、编译器、运行时与硬件架构从立项起并行设计。编译器负责将模型计算图映射到芯片内部的数据流和执行单元上,在编译期确定调度方式,减少运行时不确定性。这也是LPU最核心的壁垒——不在于芯片设计本身,而在于能否通过编译器将模型结构转化为高效、稳定、可预测的硬件执行过程。对智能体和企业本地大模型等应用,推理体验不仅取决于平均tokens/s,更取决于token输出的稳定性和延迟的可控性。
在具体计算单元上,深明奥思采用矩阵计算单元(MMA)与向量处理单元(VPU)异构协同的方式。矩阵乘法是Transformer推理最核心的算子,由专用MMA高效执行;而归一化、激活函数、MoE路由等灵活算子,以及未来不断演进的新算子,则由基于RISC-V向量扩展的自研VPU承担——既保持专用加速效率,又保留对模型变化的适配弹性。
03 占住端侧智能入口
中国AI芯片若正面复制GPU路线,将受制于先进制程、HBM供应、CUDA生态和超大资本开支。深明奥思选择从端侧大模型推理切入——客户要低延迟、数据安全、能跑大模型、快速部署、稳定运行。这些需求不需要万能GPU,而需要专门面向推理的板卡级方案。
因此深明奥思不只卖芯片,而强调核心板卡和系统级交付。对B端客户而言,真正有价值的是:插上板卡、加载模型、通过OpenAI-compatible API接入现有应用,在本地完成推理。只有走到这一层,芯片公司才真正进入客户的业务流程。
公司目前聚焦的方向——AI一体机、企业本地大模型、coding工作站、具身智能、政务金融法律等场景——共同指向"高价值本地推理"。其中具身智能尤其值得关注:当前机器人展示的多是运动能力("小脑"),但未来分水岭在"大脑"——理解上下文、拆解任务、实时推理与决策。据公开资料,深明奥思已与万通智控在该方向展开合作。
公司成立于2025年,已完成第一代LPU芯片功能设计,计划于2026年流片。团队在研发中系统性使用AI工具辅助芯片验证和软件开发,由工程师定义架构目标和判断边界,AI辅助局部实现,从而以更小团队实现更高研发效率。未来AI芯片公司比拼的不只是架构效率,也包括研发组织效率——更快理解模型变化,把变化翻译成指令集、编译器和产品定义,才有可能避免量产即落后。
04 尾声
计算架构的演进从来不是凭空发生。CPU让出图形渲染,GPU无法包打一切——每一代新架构的出现,都是新应用将旧架构的成本结构逼到极限。今天大模型推理正在扮演这个角色。
当AI进入办公桌、工作站、机器人和车端,所有推理最终都归结为一笔账:每个token多少钱,每瓦多少智能,每毫秒延迟损失多少体验。LPU的价值在于从架构层面重算这笔账——不取代GPU,而是在低延迟、确定性、本地化部署和token成本敏感的场景中,提供更专门化的路径。
未来AI基础设施大概率不会是一种芯片统治一切,而是训练、云端推理、端侧推理各自形成精细的硬件分工。深明奥思这样的中国LPU芯片公司,将在其中扮演什么角色,值得期待。
热门跟贴