万亿大模型推理时代，深明奥思的LPU芯片解法|大模型|推理|新论文|明奥思

【摘要】AI芯片的竞争正在转向"谁能把每个token算得更便宜"。深明奥思LPU是面向大语言模型推理流程重新设计的计算架构，通过数据流计算、软硬协同和板卡级交付，解决低延迟、高安全、低功耗的本地推理需求。

01 从抢GPU到算token

过去两年，AI产业的核心叙事围绕GPU展开。但当大模型走向企业与终端，一个核心矛盾浮现：训练是一次性研发投入，推理却是每天持续发生的运营成本。

tokens/s、tokens/W、上下文长度、部署成本——这些推理侧指标，正取代参数规模成为产业关注焦点。一个智能体如果每天调用上千次模型，单位token的经济性就是核心约束。这也是LPU——LLM Processing Unit——在当下变得重要的原因。

端侧推理同样在被重新定义。过去说端侧AI，很多人联想到耳机、手机、座舱语音这类轻量任务。但深明奥思创始人张强指出，真正高价值的端侧推理将出现在政务、金融、律所、研发、制造、医疗等场景：数据不能上云、知识产权不能外泄、延迟不能不可控。AI一旦从聊天工具变成生产工具，采购逻辑就成立——只要它能在数月内创造足够回报。这些场景对芯片的要求不是更万能，而是在成本、功耗、带宽与本地化之间取得更优平衡。

未来MoE模型和长上下文将进一步抬高带宽与存储需求。以传统低功耗小芯片的思路做端侧大模型，架构定义层面即存在先天瓶颈。AI基础设施将形成云端、边缘端和设备端并存格局：云端负责大规模算力调度，边缘与设备端承担低延迟、高安全的本地推理任务。

02 LPU的推理架构逻辑

判断一颗芯片是否真正面向大模型推理设计，不能只看它是否被冠以"LPU"之名，更要看其计算方式、数据通路和软件栈是否发生了系统性变化。深明奥思LPU的架构逻辑，可以从一个核心转变说起。

传统通用计算架构在运行时不断处理任务调度、缓存命中和执行顺序等问题。LPU的设计理念则反其道行之：面向大模型推理中相对稳定、重复且带宽敏感的计算路径，在编译期提前规划计算图、数据通路和存储分配，让数据沿预设路径持续流动，实现数据驱动的执行触发（data-driven execution）。换言之，LPU不是在运行时"见招拆招"，而是在编译期就把推理全程的"剧本"写好。对Transformer这类逐层前向推进的模型，这种方式天然贴合其执行过程——权重、激活值、KV cache可被组织为连续、可预测的数据流，从而提升有效带宽利用率并稳定推理延迟。

之所以强调带宽利用率，是因为大模型推理的真正瓶颈往往不在算力本身，而在存储层级间的冗余数据搬移。GPU/NPU也会通过缓存层级和片上SRAM提升数据复用，但它们需要兼顾广泛的任务形态。LPU的差异在于围绕prefill、decode、KV cache访问和矩阵/向量算子进行专项优化，通过自研数据流通路减少DDR到计算阵列间的搬运开销。根据公司架构设计目标，LPU在典型推理负载下有效带宽利用率目标达85%以上。在长上下文和连续decode场景中，这一指标直接决定单位token的能效和成本。

但仅有硬件层面的优化远远不够。大模型演进速度极快——模型结构、算子形态、量化方式、MoE路由和上下文长度都在持续变化。如果芯片仍沿用"硬件先行、软件补课"的模式，量产时就可能已经落后于模型生态。因此，深明奥思让指令集、编译器、运行时与硬件架构从立项起并行设计。编译器负责将模型计算图映射到芯片内部的数据流和执行单元上，在编译期确定调度方式，减少运行时不确定性。这也是LPU最核心的壁垒——不在于芯片设计本身，而在于能否通过编译器将模型结构转化为高效、稳定、可预测的硬件执行过程。对智能体和企业本地大模型等应用，推理体验不仅取决于平均tokens/s，更取决于token输出的稳定性和延迟的可控性。

在具体计算单元上，深明奥思采用矩阵计算单元（MMA）与向量处理单元（VPU）异构协同的方式。矩阵乘法是Transformer推理最核心的算子，由专用MMA高效执行；而归一化、激活函数、MoE路由等灵活算子，以及未来不断演进的新算子，则由基于RISC-V向量扩展的自研VPU承担——既保持专用加速效率，又保留对模型变化的适配弹性。

03 占住端侧智能入口

中国AI芯片若正面复制GPU路线，将受制于先进制程、HBM供应、CUDA生态和超大资本开支。深明奥思选择从端侧大模型推理切入——客户要低延迟、数据安全、能跑大模型、快速部署、稳定运行。这些需求不需要万能GPU，而需要专门面向推理的板卡级方案。

因此深明奥思不只卖芯片，而强调核心板卡和系统级交付。对B端客户而言，真正有价值的是：插上板卡、加载模型、通过OpenAI-compatible API接入现有应用，在本地完成推理。只有走到这一层，芯片公司才真正进入客户的业务流程。

公司目前聚焦的方向——AI一体机、企业本地大模型、coding工作站、具身智能、政务金融法律等场景——共同指向"高价值本地推理"。其中具身智能尤其值得关注：当前机器人展示的多是运动能力（"小脑"），但未来分水岭在"大脑"——理解上下文、拆解任务、实时推理与决策。据公开资料，深明奥思已与万通智控在该方向展开合作。

公司成立于2025年，已完成第一代LPU芯片功能设计，计划于2026年流片。团队在研发中系统性使用AI工具辅助芯片验证和软件开发，由工程师定义架构目标和判断边界，AI辅助局部实现，从而以更小团队实现更高研发效率。未来AI芯片公司比拼的不只是架构效率，也包括研发组织效率——更快理解模型变化，把变化翻译成指令集、编译器和产品定义，才有可能避免量产即落后。

04 尾声

计算架构的演进从来不是凭空发生。CPU让出图形渲染，GPU无法包打一切——每一代新架构的出现，都是新应用将旧架构的成本结构逼到极限。今天大模型推理正在扮演这个角色。

当AI进入办公桌、工作站、机器人和车端，所有推理最终都归结为一笔账：每个token多少钱，每瓦多少智能，每毫秒延迟损失多少体验。LPU的价值在于从架构层面重算这笔账——不取代GPU，而是在低延迟、确定性、本地化部署和token成本敏感的场景中，提供更专门化的路径。

未来AI基础设施大概率不会是一种芯片统治一切，而是训练、云端推理、端侧推理各自形成精细的硬件分工。深明奥思这样的中国LPU芯片公司，将在其中扮演什么角色，值得期待。