模型开发速度已超越芯片设计周期,边缘AI架构必须将适应性放在首位。

模型更新的频率高度依赖具体应用场景,并与产品生命周期和运营风险密切相关。

适应性往往与功耗、性能和面积目标相冲突,因此有效的异构架构和完善的软件/编译器工具链至关重要。

打开网易新闻 查看精彩图片

圆桌专家观点:当今的芯片架构师在为快速演进的AI模型设计高性能、高效能的AI处理器时,需要应对多重挑战。Semiconductor Engineering就此议题与多位业界专家展开对话,参与者包括:Arm边缘AI产品管理总监Ronan Naughton、Cadence Tensilica DSP产品管理集团总监Amol Borkar、Cadence AI IP产品营销总监Jason Lawley、Expedera首席科学家兼联合创始人Sharad Chole、Silvaco旗下Mixel营销总监Justin Endo、Quadric首席营销官Steve Roddy、Rambus研究员兼杰出发明家Steven Woo博士、Siemens EDA IC验证与EDA AI产品负责人Sathishkumar Balasubramanian,以及Synopsys首席产品经理Gordon Cooper。以下为对话节选(点击此处查看第一部分)。

模型更新频率因应用而异

SE:AI模型移植是边缘AI处理器设计中的重要环节。在"快速高效"的移植过程中,目标AI模型的更新频率如何?芯片供应商或IP核供应商需要多快响应客户的新模型移植需求?这是否因终端市场细分领域而有所不同?

Roddy:在某些细分领域,模型变化的速度正在加快。以汽车和机器人领域为例,正在发生深刻变革——从多个独立模型串联的方式,转向视觉语言动作(VLA)模型这类融合了视觉处理、语言处理与控制动作的"世界模型"。传统视觉处理高度依赖计算能力,面对4K图像中的海量像素,需要关注乘加运算(MAC)密度;而语言模型则更关注权重的流式传输,参数量可达300亿。VLA模型将两者融合,对通用计算能力提出了更高要求,这类模型也在快速迭代。不过,并非所有场景都如此。以一款售价49美元、安装在门口用于检测快递失窃的摄像头为例,用户买来安装后,可能从不更新固件,电池耗尽就直接更换新品。而另一端,安装在路灯上用于监控交通、使用寿命长达10年的摄像头,或寿命长达20年的汽车,模型更新的需求就至关重要了。对于大多数主流应用而言,模型的迭代速度之快,甚至可能在产品出厂前就已更新。如今对灵活性的重视程度,远超三年前以静态视觉任务为主的时代。

Woo:新模型和优化方案涌现速度之快,使硬件厂商根本来不及跟上每一次模型变化。客户对此有所理解,但他们同样期望在某种模型系列占据主导地位时,能够快速获得更高处理速度、更大内存带宽以及一定程度的专项优化。这给芯片架构和软件性能工程师带来了压力,要求他们支持快速高效的移植以提升吞吐量、降低延迟。在消费和视觉类边缘设备中,响应时间窗口极短,竞争优势取决于速度与准确性;而在安全关键市场,模型对安全性的要求极高,因为一旦出错,代价不可估量。

Naughton:Arm倡导异构AI理念,AI任务可以分布在整个SoC乃至不同设备之间。以个人计算为例,设想用户戴着智能眼镜走在街上,眼镜通过蓝牙与手机相连。眼镜上的处理器专注于语音理解和图像分析等特定任务,并针对该设备进行了深度优化;而手机上的任务种类繁多、更新频繁,无论是OEM自有应用还是第三方应用,都难以预判。Arm的策略是保持完全可编程性,以应对任何工作负载。因此,不同设备、不同应用场景的模型更新频率各不相同。

Balasubramanian:这很大程度上取决于应用场景。在西门子负责的工厂自动化业务中,汽车生产线上的边缘AI设备所处环境相对固定,模型更新频率远低于自动驾驶汽车。自动驾驶需要应对大量未知场景,必须尽可能实时更新模型,因为这是关乎生命安全的关键任务。即使在工业场景中,一旦发生未经训练的异常情况,也需要具备更新模型的能力。

Cooper:我认同这是应用驱动的判断。从芯片研发到量产通常需要一两年时间,产品还要在市场上存活5到10年,因此IP必须具备一定的灵活性以应对模型变化。从CNN到大语言模型,我们看到了相似的演进轨迹——先追求规模,再追求效率,大模型正在向小语言模型(SLM)演进。持续的技术迭代要求架构具备一定的灵活性,但这与追求极致的低功耗、小面积、高性能之间存在固有的权衡。

Borkar:模型更新的速度令人叹为观止,每小时甚至每分钟都可能出现新变种。与此同时,市场正驱动着AI向各类产品渗透,即使并非最优方案,各家企业也纷纷将AI融入解决方案。对于嵌入式领域而言,最大的挑战在于:这不像Windows系统那样双击即可运行,每天都有新的算子层涌现,而我们的团队规模远不及大型GPU厂商。从硬件角度看,单一的NPU或DSP难以应对所有情况,通常需要NPU加CPU的异构子系统组合。从软件角度看,编译器工具链同样至关重要——不仅要能将模型映射到硬件,还要在直接映射不可行时提供算子仿真的应急方案。最终用户最关心的是:模型能否顺畅地"输入左端、得到右端结果",这背后需要硬件与软件的协同配合。

Chole:模型变化的速度在很大程度上取决于NPU在处理流程中的位置——是靠近传感器还是靠近应用层。靠近传感器的NPU(如噪声降低应用)更新频率较低,因为传感器的工作负载、帧率和延迟要求相对稳定;而面向应用层、涉及用户交互的NPU则需要支持更多来自数据中心或学术界的新技术,包括各类量化方法和模型架构优化。真正的挑战不在于支持新模型本身,而在于以高性能支持新模型——某一代NPU上可用的优化技术可能并不适用于所有新模型,这就形成了"架构允许的变化范围"与"受硬件约束时模型所能发挥的收益"之间的博弈。

Lawley:对客户而言,有两类模型至关重要。一类是可以公开分享的参考模型,用于验证性能;另一类则是他们的核心竞争力所在——那个不能对外公开的"秘密模型"。这使得编译器的能力变得极为关键:它必须能在无法查看模型细节的情况下,将其高效映射到目标硬件。随着模型持续演进,编译器跟上新网络结构和算子的能力,既极具挑战性,又成本高昂。IP公司的优势恰恰在于可以将软件开发成本分摊给多个客户,而自研定制加速器的企业则往往在软件侧面临更大压力。

Roddy:这一点至关重要。没有任何下游OEM愿意依赖距离自己三层之外的IP授权商来完成新模型的移植。工具链必须足够可靠、开箱即用。无论底层架构如何,软件都必须让汽车制造商的数据科学家能够直接将更新后的算法高性能地部署到目标硬件上,而不是"勉强能跑,但只能跑在CPU上、速度降至二十分之一"。这中间不能横亘十二层NDA协议。无论是工业场景中的智能体应用还是车载应用,我们这些IP供应商都不能成为新模型落地的瓶颈。

智能体AI带来新挑战

SE:随着智能体AI的蓬勃发展,这股热潮如何改变了你们所观察到的工作负载类型和频率?

Balasubramanian:围绕智能体AI,我们看到一些大型企业和GPU供应商正在探索浮点精度的调整,以平衡精度与内存容量之间的权衡。整体工作负载正在增加,编排复杂度也在上升。边缘AI的IP是否足够灵活以适应这些变化,是一个关键问题。

Naughton:谈及智能体AI,需要区分云端智能体AI和本地/私有智能体AI两种主要形态。在云端模式中,设备(如手机或笔记本电脑)通过API调用云端大语言模型完成任务;在本地私有模式中,模型运行在用户设备上,可访问私人数据。在这两种场景下,Arm的CPU通常承担编排器的角色——理解用户意图、分解任务、调度云端或边缘的智能体执行。在编排器层面,Llama、vLLM、OpenClaw等框架更新极为频繁;智能体层面的Claude、ChatGPT、Gemini Flash等也在快速迭代,模型的更新周转速度相当之快。

Roddy:从某种角度看,我们其实不需要过于担心这个问题。智能体AI最令人振奋的地方在于,它代表着推理需求的一次跃升——从此前由人类行为触发的零散推理请求,转变为全天候7×24小时持续运行的工作负载。以工厂监控为例,如果一千台设备每天向云端发送数十万次查询,每日的Token消耗费用将高达数万美元,根本不可持续。因此,小语言模型(SLM)、VLA等必须完全在本地自给自足地运行,边缘设备也需要配备更强的算力、更大的内存,仅在出现异常时才回传云端。这将深刻改变整个架构格局——总体Token需求将呈爆炸式增长,数据中心和边缘设备都将面临饱和压力。

Woo:智能体AI带来的不仅仅是更多推理请求,更是长期运行、持续积累上下文的工作负载。这将硬件设计的重点从短期、瞬时处理,转向对持续效率、数据移动、可靠性和功耗管理的更高要求。随着智能体之间相互通信,单个工作负载将被放大,内存容量和带宽需求也随之增长。这推动芯片架构向更紧密的集成和更智能的内存分层管理方向演进,而不仅仅是提升计算能力。

Chole:智能体AI工作负载的Token量非常庞大,这里需要拆开来看。过去两三年,随着大模型规模不断扩大,微调的收益已逐渐不如提示词工程。如今,一个精心设计的系统提示可以带来远超微调的准确性提升——但代价是系统提示从过去的几千Token膨胀到两三万Token。更重要的是,随着大语言模型对复杂任务的理解能力大幅提升,用户可以用更简短的描述表达复杂意图,这反而使得输出的Token量大幅增加——从过去的一两千Token,扩展到如今的数万Token。这直接决定了应用应该运行在什么位置。我并不确定重度智能体应用适合部署在边缘,让手机跑两个小时才给出答案,显然不现实。作为行业,我们需要认真思考:哪类智能体适合在边缘运行,并在隐私敏感性与延迟敏感性之间找到平衡。

Cooper:从NPU的视角来看,智能体AI更像是一个系统级问题。关键在于NPU能否在传统感知AI(处理传感器输入)和以大语言模型、VLA为代表的内存密集型计算之间灵活切换。客户并不会直接问"你的NPU能跑智能体AI吗",他们更关心的是"每秒能生成多少Token"或"能否高效运行这些特定模型"。智能体AI的性能评估更多是一个系统层面的问题,而非单一NPU的指标。

Lawley:如果你认为自己已经完全理解智能体AI将如何在边缘落地,那很可能说明你还没真正理解它。这将是推理在边缘演进的下一个重大跃变。但无论如何演变,最终都会回归到三个核心问题:消耗多少功耗?需要多大的数据移动量?需要多强的计算能力?

Q&A

Q1:边缘AI处理器的模型更新频率取决于哪些因素?

A:边缘AI的模型更新频率主要取决于应用场景和产品生命周期。例如,固定环境的工厂自动化设备更新频率较低;而自动驾驶汽车、智能手机等产品因需应对复杂多变的场景,更新极为频繁,甚至可能在产品出厂前就已完成多次迭代。产品使用寿命越长、应用越复杂,对模型灵活更新的需求就越高。

Q2:为什么说编译器工具链对边缘AI芯片至关重要?

A:编译器工具链是连接AI模型与硬件的关键桥梁。由于客户最核心的模型往往无法对外公开,编译器必须在无法直接查看模型的情况下,将其高效映射到目标硬件。随着模型架构和算子持续演进,编译器能否跟上这种变化,直接决定了IP产品的竞争力。IP公司可以将软件开发成本分摊给多个客户,这是相对于自研定制加速器的重要优势。

Q3:智能体AI对边缘设备的硬件架构有哪些新要求?

A:智能体AI将推理需求从偶发性请求转变为全天候持续工作负载,边缘设备需要配备更强算力、更大内存,并具备高效的数据移动能力。同时,工作负载向长期运行、深度上下文积累演进,对持续效率、功耗管理和可靠性提出了更高要求。由于将海量推理请求全部回传云端的成本过高,边缘设备需具备本地自主处理能力,仅在异常情况下才与云端交互。