在边缘AI处理领域,芯片架构师面临的挑战远不止于提升算力峰值,还需要在快速演进的AI模型背景下,同时兼顾性能与能效。《半导体工程》杂志就此话题与来自Arm、Cadence、Expedera、Mixel(Silvaco旗下公司)、Quadric、Rambus、Siemens EDA及Synopsys的多位行业专家展开了深入探讨。

打开网易新闻 查看精彩图片

如何定义边缘AI的"快"与"效"

Arm客户端计算与边缘AI副总裁James McNiven表示,在边缘端,"快"意味着在设备实际约束条件下提供有效的AI性能,而非追求算力峰值。关键指标包括系统响应速度、能耗水平,以及在紧凑、成本敏感的设计中对内存和带宽的有效管理。实际应用中,这意味着低延迟、可预测的实时本地决策能力,覆盖智能摄像头、工业系统、可穿戴设备和智能家居等场景,且不能突破功耗预算或造成过高热量负荷。Arm将其视为跨计算、内存、互联和软件的系统级优化问题。

随着工作负载从CNN演进至基于Transformer的网络,乃至多模态任务,架构团队需要的不仅是当下高效的方案,更需要足够灵活、能够适配下一代模型演进的架构设计。

Cadence Tensilica DSP产品管理总监Amol Borkar则以生成式AI应用为例指出,"快"意味着边缘应用可以轻松达到每秒40至50个Token的实时性能。而"效"则是嵌入式领域永恒的挑战——功耗过高、面积过大始终是痛点。他幽默地引用同事的话说:"零卡路里、无糖无脂肪的冰淇淋并不存在。"然而,随着新应用不断涌现,对算力的需求只会越来越高,这也推动处理器设计进入一个持续迭代的循环。

Rambus院士兼杰出发明家Steven Woo强调,"快"意味着系统每次都能达到延迟目标,而非仅仅在平均水平上满足要求。"效"则意味着在不超出功耗预算的前提下,尽量减少资源消耗。数据搬运过多和资源利用率低下是主要的效率损耗来源。他指出,边缘推理的目标内存带宽有时需超过300至500 GB/s,因为工作负载往往受带宽限制,而非算力限制。

Cadence Tensilica AI IP产品营销总监Jason Lawley补充道,"效"的内涵不止于功耗和面积,还包括软件层面的开发效率——客户需要花费多少精力和资源,才能将神经网络映射到IP上,这同样是衡量效率的重要维度。

Quadric首席营销官Steve Roddy指出,模型迭代速度极快,尤其在智能体AI快速创新的近半年里,如何让最新模型尽快落地运行,已成为芯片和产品设计者必须考量的核心因素之一。

Expedera首席科学家兼联合创始人Sharad Chole则表示,数据中心已经具备运行大型模型的能力,边缘端更关键的问题是如何在极小的硬件footprint内实现实时高效运行。他将关键指标归结为"有效TOPS/瓦"和"有效TOPS/平方毫米",并强调这不仅是硬件架构问题,还涉及模型量化、应用设计等全栈问题。

Siemens EDA IC验证与EDA AI产品负责人Sathishkumar Balasubramanian指出,延迟是客户最看重的指标,在生成式AI应用中,与人自然交互的延迟要求低至1毫秒,而在汽车和工业场景中要求更为严苛。如何在边缘端处理不同行业的基础模型,在无需人工干预的情况下应对各种实际情况,是未来的关键所在。

Synopsys首席产品经理Gordon Cooper进一步指出,随着生成式AI向边缘迁移,大语言模型通常受内存限制,效率的重心正从功耗和性能优化转向带宽——数据传输效率已比以往任何时候都更加重要。

Mixel(Silvaco旗下公司)市场总监Justin Endo则从接口IP角度阐述,"快"意味着靠近传感器端的低延迟处理;"效"意味着最小化每次决策的能耗,而这很大程度上取决于数据搬运,而非计算本身。他特别提到,MIPI PHY(尤其是C-PHY/D-PHY组合方案)在传感器与处理域之间的高效数据传输中扮演着关键角色,而随着标准快速演进和先进节点复杂度提升,自研PHY IP的难度日益增加,成熟的量产级IP解决方案正被越来越多地采用。

当前前沿应用对AI处理的需求

Steven Woo强调,内存容量和带宽是AI处理的核心需求,覆盖从片上SRAM到低功耗DRAM(50至100 GB/s),乃至边缘平台所需的300至500 GB/s甚至更高的宽带范围。核心原则始终是:快速、高效、可预测地搬运数据,并保持计算引擎的高利用率。SRAM是稀缺资源,其扩展速度远不及逻辑电路,这迫使设计者在缓存和分块策略上做出艰难取舍。

Justin Endo指出,边缘AI的起点是数据采集。无论是汽车ADAS、工业视觉、AR/VR、可穿戴设备还是智能监控,系统都需要高质量的实时数据。随着图像传感器分辨率、帧率和动态范围不断提升,高带宽与低功耗的双重需求并存。事件驱动架构(如动作唤醒检测)能够让系统在高速突发传输后进入低功耗待机状态,从而大幅提升整体能效。

James McNiven总结道,当前领先应用需要的AI处理能力不仅要高性能,还要响应迅速、节能高效,并能在真实边缘环境中部署。关注点已从算力峰值转向低延迟、实际功耗范围内的本地推理,以及跨多样化工作负载的综合表现。CPU、NPU与更广泛系统架构的协同配合至关重要。他特别指出,"最便宜的芯片,在第一次模型更新导致产品崩溃时,就不再便宜了。"软件可移植性、框架支持、安全性和AI能力的持续迭代升级,正成为与硬件同等重要的次级权衡因素,决定着产品能否从概念快速走向量产,并跨越未来多代软件演进。

Q&A

Q1:边缘AI处理中,为什么内存带宽比算力峰值更重要?

A:在边缘AI推理场景中,工作负载往往受带宽限制而非算力限制,数据搬运的能耗通常远高于计算本身。部分边缘平台所需的内存带宽已超过300至500 GB/s,单纯提升TOPS并不能解决数据供给瓶颈。因此,架构师需要重点关注内存系统设计、数据搬运路径优化以及片上与片外存储的合理分配,才能真正提升系统整体效率。

Q2:边缘AI芯片设计中,模型更新速度为什么是关键考量因素?

A:AI模型迭代极快,尤其在智能体AI领域,新模型不断涌现。如果芯片设计无法快速支持新模型落地,OEM厂商就必须依赖第三方完成移植,大幅拖慢产品上市节奏。正如专家所指出的,一颗看似便宜的芯片,一旦因无法支持模型更新而导致产品失效,其实际成本将远超预期。因此,软件可移植性和快速模型适配能力已成为芯片选型的核心指标之一。

Q3:边缘AI全栈优化具体包括哪些层面?

A:边缘AI的全栈优化涵盖从模型设计、量化压缩、硬件架构,到软件框架、工具链支持等多个层面。硬件上需要CPU、NPU与内存子系统的协同配合;软件上需要可移植的框架和高效的映射工具;模型侧则需要通过量化等手段将大参数模型压缩至边缘可运行的规模。此外,传感器接口(如MIPI PHY)的效率也直接影响数据采集阶段的整体能耗,是系统级优化不可忽视的环节。