过去几年,提到边缘AI,很多人第一反应往往是高性能处理器、SoC。而到如今,在MCU中放入NPU,也已经稀疏平常,毕竟通用MCU的CPU核并不适合直接执行AI/ML运算,将AI推理卸载至NPU后,MCU可专注于其他关键功能,从而确保系统实时、高效地运行,搭配干活才不累。

对于Arm MCU和MPU来说,Ethos系列NPU堪称绝配,很多厂商都选择了这条路线。不过为了让MCU和MPU更好的承载AI,几大MCU/MPU巨头都在研究自己的NPU,并在最近一段时间不断加大研究力度。今天,EEWorld就来盘点一下这些厂商的最新动态。

TI:TinyEngine和C7 NPU

德州仪器(TI)目前拥有两款NPU:面向高性能应用的C7 NPU和面向低功耗可扩展设备的TinyEngine NPU。

根据TI的说法,嵌入式处理器的处理能力、功耗限制以及高门槛的编程专业知识曾限制了边缘AI的普及。专用硬件如图形处理器(GPU)、现场可编程门阵列(FPGA)和专用集成电路(ASIC)虽性能出色,但受限于高功耗或灵活性不足。集成的神经网络处理器(NPU)应运而生——它专门执行构成现代神经网络基础的矩阵乘法、卷积运算和激活函数,通过从主CPU卸载计算密集型任务,显著提高推理速度并降低功耗。

首先,在TinyEngine NPU方面,MCU核心产品包括TMS320F28P550SJ(C2000 MCU)、AM13E230x(M33内核MCU)和MSPM0G5187(80MHz M0+内核MCU)。其对于TinyEngine NPU的理解在于让AI与控制并行存在,通过硬件层面的任务划分,让两种本质不同的计算同时存在:CPU负责实时控制,NPU负责AI推理。

德州仪器ASM微控制器工业业务负责人吴健鸿向EEWorld解释,加入NPU的核心原因,就是为了让AI运算和实时控制可以并行,而不是互相干扰。这并不是一次简单的性能升级,而是一次架构上的解耦。它让中低性能的MCU第一次可以在不破坏确定性及低延迟的前提下,引入非确定性的智能计算。

打开网易新闻 查看精彩图片

根据TI的官方阐述,TinyEngine NPU 突破了长期以来制约嵌入式人工智能广泛普及的关键设计瓶颈,具备以下优势:

  • 相较于纯软件实现的人工智能方案,单次推理能耗降低至1/120,延迟降低至1/90;

  • 算力达2.56 GOPS,可支撑深度学习模型的实时边缘 AI 推理。

  • 支持8比特、4比特、2比特量化及混合精度配置,支持原位运算,有效解决存储容量受限问题;

  • 兼容多种神经网络层类型,包括卷积层(常规卷积、深度卷积、逐点卷积、转置卷积)、全连接层、池化层(平均池化、最大池化),并支持批归一化;

  • 简化工具链降低开发复杂度,开发周期从数周缩短至数小时。

可以看出,TinyEngine并不试图对标高端SoC,但它的目标更明确——在超低功耗和低成本下,完成足够好的AI推理。

打开网易新闻 查看精彩图片

TI的策略并不是单点突破,而是构建完整的系统AI能力,所以在TinyEngine NPU之外,另一只手是C7 NPU。

C7 NPU是一款高性能、高能效的AI加速器,集成于TDA54-Q1和TDA4VE-Q1片上系统(SoC)中。它源自TI在DSP领域的长期积累,使TI处理器能够同时处理多个并发的AI工作负载,适用于高级驾驶辅助系统、信息娱乐和机器人等应用。

另外值得一提的是,TI更是从模拟信号链到控制,再到AI推理,其能力覆盖了一整条技术路径。

ST:用内存计算(IMC)颠覆NPU

早在2022年,ST就曾宣布,STM32N6将成为ST首个加入NPU的产品,很多工程师也对这一产品翘首以盼。

Neural-Art Accelerator是ST专有知识产权的神经网络处理单元。其搭载的NPU算力达到600 GOPS,具有3TOPS/W的优异表现。嵌入式的Neural-Art Accelerator 的硬件加速单元在算力处理得当的情况下,可以与Cortex-M55 内核完全独立并行工作,可以作为 Cortex-M55的协处理器,做AI加速能力运算。

在STM32N6中,NPU采用基于可配置全连接交换机的单向链路架构,通过DMA及支持卷积、池化、激活、标量等运算的加速器传输数据流,可在运行时定义任意多条并发虚拟处理链。完备的反压机制实现数据流控制与流式多播,支持数据在多个端点间重用;链表控制整个周期(可融合多个层)的完全自主处理。多个加速器以分组或链接方式并行处理不同大小的特征图与内核,交换机拓扑在编译时定义并在运行时动态配置,每个节点代表一个处理单元或内存流通道。该设计支持跨多层的流水线操作并满足最坏情况延迟约束,而可配置加速器框架(CAF)则负责管理数据传输与计算调度,并能自动适应各种网络层拓扑。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

我们都知道,在STM32MP2系列中,NPU并非自研。而在STM32N6上,ST为什么选择自研,而非Arm?事实上,Arm一直是ST的合作伙伴,ST始终非常重视与Arm的合作。然而,ST自研NPU从六年前就开始设计,并且具有一定灵活性,可以根据不同产品需求进行裁剪,其自研的产品在PPA上具有明显优势,同时ST也在为未来的技术创新做准备,尤其是计划推出的颠覆性技术——IMC(In Memory Computing,内存计算)。这一技术将能够基于ST的NPU架构进行开发和应用。

根据ST的规划,第一款神经网络加速器Neural-ART 1,作为STM32N6微控制器的内核。其最大性能为4.6 TOPS,能效为1~5TOPS/W。下一步,ST将会进一步发展第二代数字内存计算D-IMC,这将带来比第一代 4 倍的性能提升,能够达到18TOPS和20~40TOPS/W的性能。Neural-ART 3将是具有混合架构和50+ TOPS/W性能的产品,预计第三代的性能将比第二代再提升10倍。

打开网易新闻 查看精彩图片

ST一篇论文中表示,内存计算(IMC)可大幅减少内存数据传输,从而降低功耗。“我们已成功完成其数字和模拟版本的原型设计,性能分别提升高达8.3倍和16.7倍。这些技术支持1至8位高级量化,在保证与现有NPU无缝集成的前提下,进一步提升性能并缩小模型体积。”

打开网易新闻 查看精彩图片

NXP:一手自研,一手收购

eIQ Neutron NPU是NXP的高度可扩展的加速器内核架构,可提供机器学习加速。该架构优化了功率和性能,与恩智浦广泛的微控制器和应用处理器产品组合相集成。目前,应用eIQ Neutron NPU的MPU包括i.MX 95、i.MX 952、i.MX 94、i.MX 93、i.MX 8M Plus,跨界MCU包括i.MX RT700,MCU包括MCX N94x和N54X。

eIQ Neutron NPU采用点积脉动架构,支持多种神经网络类型,包括CNN、RNN、TCN和Transformer网络等。eIQ机器学习软件开发环境为eIQ Neutron NPU的ML应用开发提供完整支持。eIQ Neutron支持常见的神经网络运算符,如Conv2D、Depthwise Conv2D、full connected、Add、Average Pooling2D、Maximum Pooling2D和Padding,它还支持8位量化权重。

eIQ Neutron NPU提供了一系列丰富的功能选项,这些选项会根据该内核所集成到的具体 NXP边缘处理设备,以及该设备系列所针对的市场需求来进行灵活配置。其主要特性包括:专用的控制器内核;支持在线的反量化、激活和池化操作;内置微型缓存,可有效降低功耗,并减少对系统内存速度的依赖;权重解压缩引擎;先进的多维DMA,支持步进、批处理、交织和拼接等多种输入输出格式;可配置紧耦合内存。

打开网易新闻 查看精彩图片

从架构来看,eIQ Neutron NPU采用点积脉动架构,传统高吞吐量脉动阵列依赖大量宽位(32bit)累加器,带来显著的连线、逻辑与寄存器开销,且在小工作负载下利用率低下。本文点积结构可消除这些缺陷。

除了在MCU、MPU放入NPU,NXP还收购了独立神经处理单元(DNPU)的领导企业之一Kinara。根据NXP的说法,DNPU非常适合高性能、低延迟的专用AI任务,而集成式NPU则能处理更通用的AI处理以及低功耗始终在线AI功能。这种组合能够实现更优化、更高效的智能边缘系统架构。

打开网易新闻 查看精彩图片

NXP提供两款独立神经处理单元(DNPU):Ara-1是第一代DNPU,适用于摄像头、嵌入式系统和边缘服务器等边缘设备的高能效AI推理。Ara-2是第二代DNPU,能够提供高达40 eTOPS的性能,并针对实时生成式AI进行了优化。

打开网易新闻 查看精彩图片

英飞凌:针对汽车的PPU

英飞凌没有直接做NPU,不过针对电动汽车开发了PPU(并行处理单元,Parallel Processing Unit),它并非一个独立的DSP内核,而是一个高度专业化、可灵活配置的计算加速器集群。目前搭载PPU的产品主要是28nm的AURIX TC4x。PPU拥有灵活的架构,适用于执行速度快且数据处理量大的汽车应用。

实现的任务和用例因应用而异,但可以识别出两个主要集群。一方面,PPU允许复杂的数据处理和基于观察者的传感器执行器系统控制(例如牵引电机逆变器或直流/直流变换器控制)。另一方面,它支持基于人工神经网络(MLP、RBF、RNN、CNN)的系统建模(例如虚拟传感器、电池管理系统中的健康状态/电荷状态优化,以及未来领域或区域控制器的预测性车辆运动控制)和对象分类(如传感器融合)解决方案。

打开网易新闻 查看精彩图片

PPU模块内核选择了新思(Synopsys)的DesignWare ARC EV71处理器。ARC EV系列是Synopsys专门为嵌入式视觉、传感器融合和人工智能处理而设计的高性能DSP处理器家族。PPU主要内包含:

  • 标量核(Scalar Core):用于执行大量的标量运算,以及任务调度,支持多种算术运算和逻辑运算,支持硬件浮点运算,提供丰富的硬件功能安全机制;

  • 向量核(Vector core/SIMD Core):专门用于执行向量运算,支持多种向量算术运算、逻辑运算和专用信号处理,支持整型数和浮点运算,支持多级流水线和SIMD指令;

  • 一级缓存:用于保存计算输入和输出数据的存储空间,由于结构上和运算核紧密耦合,该缓存可以在PPU的执行过程中对状态进行快速读写,并且有EDC/ECC保护,从而实现更高的执行效率和更高的可靠性;

  • 其它系统资源:包括用于快速数据搬运的DMA,共享内存区等。

打开网易新闻 查看精彩图片

瑞萨:自研DRP-AI

瑞萨在最新的RA8P1系列等产品用了Arm的Ethos系列NPU,不过这家公司也有自研的AI 加速器:DRP-AI。大多数AI加速器专注于AI推理,依赖CPU进行前后处理,而DRP-AI将预处理、后处理和AI推理集成到单一DRP-AI硬件中,以实现卓越的AI处理性能。其RZ/V2H平台就集成了最新的DRP-AI3,其他产品包括RZ/V2M、RZ/V2MA、RZ/V2L、RZ/V2N。

DRP-AI由AI-MAC(乘积累加处理器)和DRP(可重构处理器)组成。AI处理可通过在卷积层和全连接层为运算分配AI-MAC来高速执行,而且DRP也适用于预处理和池化层等其他复杂的处理。

打开网易新闻 查看精彩图片

DRP-AI3是瑞萨在2024年推出的新一代DRP-AI,与上一代相比,电源能效高出约10倍。 DRP-AI3 能够应对AI的未来发展需要以及机器人等应用的复杂需求。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

DRP-AI3算力达到8 TOPS,此外,对于已剪枝的 AI 模型,可以根据剪枝量信息成比例地减少运算周期次数,从而使 AI 模型运算性能达到剪枝前模型的峰值水平 (80 TOPS)。 这相当于高出传统DRP-AI处理性能约80倍,这样的大幅度性能提升足以跟上 AI 快速发展的步伐。在电源能效方面,仅 AI 加速器的性能评估显示,其最高理论性能约为 23 TOPS/W,运行主流AI模型时的电源能效达到世界顶尖水平(约为10 TOPS/W)。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

DRP - AI如何与瑞萨的MCU/MPU协同工作以实现AI推理加速?MCU主要运行机器学习算法,MPU侧重深度学习视觉方向算法。硬件层面,二者通过高速内部总线通信,保障数据快速流转;软件层面,优化驱动与接口程序,让调用DRP - AI算力如同调用本地函数般便捷,无缝衔接实现 AI 推理加速。

参考文献

[1]TI:https://www.ti.com/lit/wp/spry349a/spry349a.pdf

[2]芯视点:https://mp.weixin.qq.com/s/-KpDskzgV7MT-u-0XfSihA

[3]IEEE:https://arxiv.org/pdf/2509.14388

[4]ST:https://shequ.stmicroelectronics.cn/thread-645078-1-1.html

[5]汽车电子与软件:https://mp.weixin.qq.com/s/kXG7a1mMS8KDITJGk8hEXA

[6]瑞萨:https://www.renesas.cn/zh/software-tool/ai-accelerator-drp-ai

[7]Digikey:https://www.digikey.cn/zh/forum/t/topic/4291

请将我们设为“星标”,这样就会第一时间收到推送消息。

欢迎关注EEWorld旗下订阅号:“机器人开发圈”

扫码添加小助手回复“机器人”

进群和电子工程师们面对面交流经验

打开网易新闻 查看精彩图片