MCU/MPU巨头，集体自研NPU|arm|mcu|mpu|处理器

过去几年，提到边缘AI，很多人第一反应往往是高性能处理器、SoC。而到如今，在MCU中放入NPU，也已经稀疏平常，毕竟通用MCU的CPU核并不适合直接执行AI/ML运算，将AI推理卸载至NPU后，MCU可专注于其他关键功能，从而确保系统实时、高效地运行，搭配干活才不累。

对于Arm MCU和MPU来说，Ethos系列NPU堪称绝配，很多厂商都选择了这条路线。不过为了让MCU和MPU更好的承载AI，几大MCU/MPU巨头都在研究自己的NPU，并在最近一段时间不断加大研究力度。今天，EEWorld就来盘点一下这些厂商的最新动态。

TI：TinyEngine和C7 NPU

德州仪器（TI）目前拥有两款NPU：面向高性能应用的C7 NPU和面向低功耗可扩展设备的TinyEngine NPU。

根据TI的说法，嵌入式处理器的处理能力、功耗限制以及高门槛的编程专业知识曾限制了边缘AI的普及。专用硬件如图形处理器（GPU）、现场可编程门阵列（FPGA）和专用集成电路（ASIC）虽性能出色，但受限于高功耗或灵活性不足。集成的神经网络处理器（NPU）应运而生——它专门执行构成现代神经网络基础的矩阵乘法、卷积运算和激活函数，通过从主CPU卸载计算密集型任务，显著提高推理速度并降低功耗。

首先，在TinyEngine NPU方面，MCU核心产品包括TMS320F28P550SJ（C2000 MCU）、AM13E230x（M33内核MCU）和MSPM0G5187（80MHz M0+内核MCU）。其对于TinyEngine NPU的理解在于让AI与控制并行存在，通过硬件层面的任务划分，让两种本质不同的计算同时存在：CPU负责实时控制，NPU负责AI推理。

德州仪器ASM微控制器工业业务负责人吴健鸿向EEWorld解释，加入NPU的核心原因，就是为了让AI运算和实时控制可以并行，而不是互相干扰。这并不是一次简单的性能升级，而是一次架构上的解耦。它让中低性能的MCU第一次可以在不破坏确定性及低延迟的前提下，引入非确定性的智能计算。

根据TI的官方阐述，TinyEngine NPU 突破了长期以来制约嵌入式人工智能广泛普及的关键设计瓶颈，具备以下优势：

相较于纯软件实现的人工智能方案，单次推理能耗降低至1/120，延迟降低至1/90；
算力达2.56 GOPS，可支撑深度学习模型的实时边缘 AI 推理。
支持8比特、4比特、2比特量化及混合精度配置，支持原位运算，有效解决存储容量受限问题；
兼容多种神经网络层类型，包括卷积层（常规卷积、深度卷积、逐点卷积、转置卷积）、全连接层、池化层（平均池化、最大池化），并支持批归一化；
简化工具链降低开发复杂度，开发周期从数周缩短至数小时。

可以看出，TinyEngine并不试图对标高端SoC，但它的目标更明确——在超低功耗和低成本下，完成足够好的AI推理。

TI的策略并不是单点突破，而是构建完整的系统AI能力，所以在TinyEngine NPU之外，另一只手是C7 NPU。

C7 NPU是一款高性能、高能效的AI加速器，集成于TDA54-Q1和TDA4VE-Q1片上系统（SoC）中。它源自TI在DSP领域的长期积累，使TI处理器能够同时处理多个并发的AI工作负载，适用于高级驾驶辅助系统、信息娱乐和机器人等应用。

另外值得一提的是，TI更是从模拟信号链到控制，再到AI推理，其能力覆盖了一整条技术路径。

ST：用内存计算（IMC）颠覆NPU

早在2022年，ST就曾宣布，STM32N6将成为ST首个加入NPU的产品，很多工程师也对这一产品翘首以盼。

Neural-Art Accelerator是ST专有知识产权的神经网络处理单元。其搭载的NPU算力达到600 GOPS，具有3TOPS/W的优异表现。嵌入式的Neural-Art Accelerator 的硬件加速单元在算力处理得当的情况下，可以与Cortex-M55 内核完全独立并行工作，可以作为 Cortex-M55的协处理器，做AI加速能力运算。

在STM32N6中，NPU采用基于可配置全连接交换机的单向链路架构，通过DMA及支持卷积、池化、激活、标量等运算的加速器传输数据流，可在运行时定义任意多条并发虚拟处理链。完备的反压机制实现数据流控制与流式多播，支持数据在多个端点间重用；链表控制整个周期（可融合多个层）的完全自主处理。多个加速器以分组或链接方式并行处理不同大小的特征图与内核，交换机拓扑在编译时定义并在运行时动态配置，每个节点代表一个处理单元或内存流通道。该设计支持跨多层的流水线操作并满足最坏情况延迟约束，而可配置加速器框架（CAF）则负责管理数据传输与计算调度，并能自动适应各种网络层拓扑。

我们都知道，在STM32MP2系列中，NPU并非自研。而在STM32N6上，ST为什么选择自研，而非Arm？事实上，Arm一直是ST的合作伙伴，ST始终非常重视与Arm的合作。然而，ST自研NPU从六年前就开始设计，并且具有一定灵活性，可以根据不同产品需求进行裁剪，其自研的产品在PPA上具有明显优势，同时ST也在为未来的技术创新做准备，尤其是计划推出的颠覆性技术——IMC（In Memory Computing，内存计算）。这一技术将能够基于ST的NPU架构进行开发和应用。

根据ST的规划，第一款神经网络加速器Neural-ART 1，作为STM32N6微控制器的内核。其最大性能为4.6 TOPS，能效为1～5TOPS/W。下一步，ST将会进一步发展第二代数字内存计算D-IMC，这将带来比第一代 4 倍的性能提升，能够达到18TOPS和20～40TOPS/W的性能。Neural-ART 3将是具有混合架构和50+ TOPS/W性能的产品，预计第三代的性能将比第二代再提升10倍。

ST一篇论文中表示，内存计算（IMC）可大幅减少内存数据传输，从而降低功耗。“我们已成功完成其数字和模拟版本的原型设计，性能分别提升高达8.3倍和16.7倍。这些技术支持1至8位高级量化，在保证与现有NPU无缝集成的前提下，进一步提升性能并缩小模型体积。”

NXP：一手自研，一手收购

eIQ Neutron NPU是NXP的高度可扩展的加速器内核架构，可提供机器学习加速。该架构优化了功率和性能，与恩智浦广泛的微控制器和应用处理器产品组合相集成。目前，应用eIQ Neutron NPU的MPU包括i.MX 95、i.MX 952、i.MX 94、i.MX 93、i.MX 8M Plus，跨界MCU包括i.MX RT700，MCU包括MCX N94x和N54X。

eIQ Neutron NPU采用点积脉动架构，支持多种神经网络类型，包括CNN、RNN、TCN和Transformer网络等。eIQ机器学习软件开发环境为eIQ Neutron NPU的ML应用开发提供完整支持。eIQ Neutron支持常见的神经网络运算符，如Conv2D、Depthwise Conv2D、full connected、Add、Average Pooling2D、Maximum Pooling2D和Padding，它还支持8位量化权重。

eIQ Neutron NPU提供了一系列丰富的功能选项，这些选项会根据该内核所集成到的具体 NXP边缘处理设备，以及该设备系列所针对的市场需求来进行灵活配置。其主要特性包括：专用的控制器内核；支持在线的反量化、激活和池化操作；内置微型缓存，可有效降低功耗，并减少对系统内存速度的依赖；权重解压缩引擎；先进的多维DMA，支持步进、批处理、交织和拼接等多种输入输出格式；可配置紧耦合内存。

从架构来看，eIQ Neutron NPU采用点积脉动架构，传统高吞吐量脉动阵列依赖大量宽位（32bit）累加器，带来显著的连线、逻辑与寄存器开销，且在小工作负载下利用率低下。本文点积结构可消除这些缺陷。

除了在MCU、MPU放入NPU，NXP还收购了独立神经处理单元（DNPU）的领导企业之一Kinara。根据NXP的说法，DNPU非常适合高性能、低延迟的专用AI任务，而集成式NPU则能处理更通用的AI处理以及低功耗始终在线AI功能。这种组合能够实现更优化、更高效的智能边缘系统架构。

NXP提供两款独立神经处理单元(DNPU)：Ara-1是第一代DNPU，适用于摄像头、嵌入式系统和边缘服务器等边缘设备的高能效AI推理。Ara-2是第二代DNPU，能够提供高达40 eTOPS的性能，并针对实时生成式AI进行了优化。

英飞凌：针对汽车的PPU

英飞凌没有直接做NPU，不过针对电动汽车开发了PPU（并行处理单元，Parallel Processing Unit），它并非一个独立的DSP内核，而是一个高度专业化、可灵活配置的计算加速器集群。目前搭载PPU的产品主要是28nm的AURIX TC4x。PPU拥有灵活的架构，适用于执行速度快且数据处理量大的汽车应用。

实现的任务和用例因应用而异，但可以识别出两个主要集群。一方面，PPU允许复杂的数据处理和基于观察者的传感器执行器系统控制（例如牵引电机逆变器或直流/直流变换器控制）。另一方面，它支持基于人工神经网络（MLP、RBF、RNN、CNN）的系统建模（例如虚拟传感器、电池管理系统中的健康状态/电荷状态优化，以及未来领域或区域控制器的预测性车辆运动控制）和对象分类（如传感器融合）解决方案。

PPU模块内核选择了新思（Synopsys）的DesignWare ARC EV71处理器。ARC EV系列是Synopsys专门为嵌入式视觉、传感器融合和人工智能处理而设计的高性能DSP处理器家族。PPU主要内包含：

标量核（Scalar Core）：用于执行大量的标量运算，以及任务调度，支持多种算术运算和逻辑运算，支持硬件浮点运算，提供丰富的硬件功能安全机制；
向量核（Vector core/SIMD Core）：专门用于执行向量运算，支持多种向量算术运算、逻辑运算和专用信号处理，支持整型数和浮点运算，支持多级流水线和SIMD指令；
一级缓存：用于保存计算输入和输出数据的存储空间，由于结构上和运算核紧密耦合，该缓存可以在PPU的执行过程中对状态进行快速读写，并且有EDC/ECC保护，从而实现更高的执行效率和更高的可靠性；
其它系统资源：包括用于快速数据搬运的DMA，共享内存区等。

瑞萨：自研DRP-AI

瑞萨在最新的RA8P1系列等产品用了Arm的Ethos系列NPU，不过这家公司也有自研的AI 加速器：DRP-AI。大多数AI加速器专注于AI推理，依赖CPU进行前后处理，而DRP-AI将预处理、后处理和AI推理集成到单一DRP-AI硬件中，以实现卓越的AI处理性能。其RZ/V2H平台就集成了最新的DRP-AI3，其他产品包括RZ/V2M、RZ/V2MA、RZ/V2L、RZ/V2N。

DRP-AI由AI-MAC（乘积累加处理器）和DRP（可重构处理器）组成。AI处理可通过在卷积层和全连接层为运算分配AI-MAC来高速执行，而且DRP也适用于预处理和池化层等其他复杂的处理。

DRP-AI3是瑞萨在2024年推出的新一代DRP-AI，与上一代相比，电源能效高出约10倍。 DRP-AI3 能够应对AI的未来发展需要以及机器人等应用的复杂需求。

DRP-AI3算力达到8 TOPS，此外，对于已剪枝的 AI 模型，可以根据剪枝量信息成比例地减少运算周期次数，从而使 AI 模型运算性能达到剪枝前模型的峰值水平 (80 TOPS)。这相当于高出传统DRP-AI处理性能约80倍，这样的大幅度性能提升足以跟上 AI 快速发展的步伐。在电源能效方面，仅 AI 加速器的性能评估显示，其最高理论性能约为 23 TOPS/W，运行主流AI模型时的电源能效达到世界顶尖水平（约为10 TOPS/W）。