树莓派新款AI HAT+ 2 扩展板:升级神经加速与内存,赋能树莓派 5 的生成式 AI 任务

树莓派近期推出新款 AI HAT+ 2 扩展板,这是其首款专为树莓派 5 平台打造、适配生成式 AI 任务的硬件附加板(HAT)产品。

打开网易新闻 查看精彩图片

The Raspberry Pi AI HAT +2.

该产品在初代 AI HAT 及 AI HAT + 的设计基础上迭代升级,搭载高性能神经网络加速器并强化系统集成能力,可满足传统计算机视觉推理之外的更多应用场景需求。

AI HAT+ 2 的架构与核心性能

树莓派 AI HAT+ 2 为全尺寸 HAT + 规格,完美兼容树莓派 5,板载Hailo-10H 神经网络加速器。该加速器的 8 位整数(INT8)推理算力可达 40 万亿次运算每秒(TOPS),相较基于海洛 - 8 的前代 AI HAT+(算力最高 26 TOPS)实现大幅提升。凭借更强的计算能力,这款扩展板成为运行基于 Transformer 架构和扩散式模型的理想选择,这类模型对持续吞吐量的要求远高于早期的边缘 AI 任务。

Hailo-10H 加速器通过树莓派 5 的 HAT + 接口,以第二代 PCIe x1 总线与主机相连。这种直连方式规避了 USB 接口加速器的带宽瓶颈,实现主机内存与神经处理单元之间的低延迟数据传输。同时,扩展板内置板载电源调节模块,可在树莓派 5 的功耗限制范围内,为加速器的峰值负载提供稳定供电。

打开网易新闻 查看精彩图片

树莓派 AI HAT +2 配备了 8 GB 专用板载内存,因此能够支持比以往更大的模型。

Hailo-10H 在初代基础上优化了片上内存资源,提升了数据流调度的灵活性,推理过程中,大模型的部分计算模块可常驻加速器中。加之 8GB 板载内存的加持,树莓派官方表示,该扩展板可支持参数量最高达 60 亿的大语言模型(LLM)和视觉语言模型(VLM)。

在硬件兼容性上,这款扩展板与树莓派标准机箱、散热配件完全适配,且随板附赠专用散热片。树莓派官方建议,若需长时间高负载运行,搭配主动式散热器使用。

软件层面,AI HAT+ 2 全面兼容树莓派官方系统 Raspberry Pi OS,同时可无缝对接海洛全套软件栈,包括模型编译工具与运行时库。

为生成式AI 打造的边缘加速方案

生成式 AI 模型与传统推理任务在模型结构和资源需求上存在显著差异。多数生成式 AI 模型基于 Transformer 架构构建,依赖反复的矩阵运算、注意力机制,且拥有庞大的参数量;与功能固定的计算机视觉处理流程不同,生成式模型往往需要对同一数据结构进行迭代运算,因此内存局部性与调度效率成为关键性能指标。

在资源受限的边缘设备中,通用 CPU 难以在合理的功耗范围内,为生成式 AI 任务提供可用的运算性能。而专用神经加速器通过搭载针对低精度运算(通常为 8 位整数或混合精度)优化的并行计算阵列,可有效解决这一问题;同时,加速器依托紧耦合内存和确定性数据流,减少高能耗、高延迟的外部内存访问,进一步提升运算效率。

边缘部署场景中,模型的适配灵活性也是重要考量因素。需对生成式 AI 模型进行量化与编译,使其适配加速器的执行逻辑,同时保证输出效果不会出现不可接受的衰减。这对编译器的成熟度、工具链的完善度提出了更高要求,尤其针对快速迭代的生成式 AI 任务而言,更是如此。

解锁树莓派全新应用场景

AI HAT+ 2 的推出,让树莓派得以支持此前超出其平台实际性能上限的应用。当大模型能在端侧实现低延迟推理后,本地文本生成、语音转文字预处理、图像描述生成、多模态智能助手等应用均具备了落地可行性。对于开发者而言,这也为打造隐私保护型、离线运行型系统创造了条件,这类系统无需依赖持续的云端网络连接。

目前,树莓派 AI HAT+ 2 已通过树莓派官方授权经销商正式发售。

EETOP创芯大讲堂芯片课程推荐