基于异构边缘终端的端侧AI统一架构研究与实践|中间件|大模型|异构|时延|端侧|算法|统一架构|边缘终端

通信世界网消息（CWW）近年来，随着家庭智能设备的普及，像智慧中屏这类具备算力的新型终端，逐渐变成家庭服务“中枢”。过去很多依赖云端的功能，包括语音识别、图像解析等，随着终端本身算力的提高，逐渐由云端处理向终端本地服务迁移。同时随着安全意识的普及，用户越来越希望对话、影像等敏感数据能在本地设备上处理，而不是上传至云端，此类需求推动“端侧AI”成为家庭智能终端升级的核心方向。但市面上家庭终端的芯片算力、内存、操作系统五花八门，若在这些异构边缘终端部署多类AI模型，会遇到硬件接口五花八门、模型更新烦琐、终端资源分配无序、接入网络复杂等各类问题。针对上述实际痛点，结合运营商大规模研发与部署智慧中屏等家庭智能设备的实践经验，本文设计并搭建了一套用于异构终端部署的端侧AI统一架构，在此基础上设计了一套云边端三层协同推理流程，覆盖管理模型从上线、更新到下线的全生命周期，让AI能力能够更稳定、可控地集成到边缘终端上。

1 集中式云端AI方案技术现状

智能家居业务在早期发展阶段，一般采用在云端集中化部署AI能力的方式。该方式实现简单，属于典型的集中式部署模式，具备语音识别、图像处理及内容推荐等多方面能力，但在实际家庭使用场景中存在不少技术缺陷。

由网络依赖引起时延的问题：云端AI服务是通过互联网传输相关数据的，而家庭Wi-Fi信号存在时强时弱的情况，在网络带宽不足、网络时延较高的情况下，无论是语音交互还是视频分析类的应用都存在较明显的时延，导致用户体验波动较大。

摄像头、麦克风等传感设备广泛部署于家庭场景，用于持续采集环境数据，而如果将所有的原始数据都上传至云端进行处理，则会给用户的隐私带来极大的安全隐患。

因此，业界认识到应进行AI端云结合，将一部分AI能力放到终端，这才是合理的方向。

2 端侧AI统一架构的基础概念与设计

2.1 端侧AI基础概念

“端侧AI”通过边缘终端所具备的算力实现部分感知、推理、决策等功能。相比于“云端AI”，端侧推理由于其具备低时延、本地算力和隐私保护等优点，在智慧家庭等智能场景具有明显优势[7]。例如，对于家庭智能而言，如果语音或者图像识别在智慧中屏本地执行，其语音或图像交互效果会明显优于云端AI计算方案。此外，相关研究显示，推理下沉至端侧能大幅降低语音、图像上传频率，减少带宽占用，防范隐私泄露的风险。

2.2 云边端协同理念

近几年，对于云计算本身以及智能计算而言，以云边端协同为核心的技术架构已成为行业共识：一方面尽可能保护好数据的隐私；另一方面，可以利用终端侧的低时延优势与云端的强算力、大容量优势，充分发挥三者的协同增益效应。

通常情况下，在这种结构中，云端负责比较复杂的模型训练和管理，并将模型能力下发至终端；终端侧负责轻量化、时间敏感的推理任务，并将必要的结果反馈至云端，从而形成持续优化的闭环。

行业实践也明确了类似的思路，在中兴通讯的6G内生AI网络方案中，采取了分层设计模式，并通过模型和资源管理模块实现云边端统一调度。NextG联盟、欧盟6G-IA等产业联盟亦强调要从6G设计伊始，就重点考虑终端算力、跨层协同等问题。

从现有研究结果及产业发展相关情况看，云边端的融合能够充分利用三者各自的计算能力，根据应用的不同需求灵活调动云边端三级资源，对于提升整个系统的性能与稳定性具有很大的增益作用。

2.3 模型生命周期管理

在端侧AI协同体系的构建过程中，模型生命周期的管理是不可回避的问题。例如IBM提出的AI Gateway架构，通过统一对接接口、统一抽象封装等方式实现模型版本管控，并支持更新、回滚等全生命周期管理，其核心思路是降低高层应用与底层模型的耦合。

类似的思路也可应用于端侧AI环境，为终端搭建一套统一的模型接口与模型集中管理体系，在不影响业务的前提下可实现模型升级替换；在边缘终端设备中通过容器化或分批更新的方式，待模型下发、升级及安装完成后，再启动设备上线服务；除了模型的更新之外，还应注意端侧AI落地在工程方面的问题，如多层级日志采集、模型运行状态检测等。

基于上述端侧AI平台设计思路，本文根据家庭智能终端场景的实际使用条件及限制因素，提出了更加适合工程落地的整体架构以及相应的具体方案。

2.4 系统架构设计

针对家庭智慧中屏多模型并行运行、任务类型复杂以及终端资源受限等特点，本文设计了一套分层、模块化的端侧AI中间件体系。整体架构分为调用层、调度层和模型层，各层职责相对清晰，并通过统一接口和协议进行协同。系统主要包括统一接口、模型更新、日志上报、生命周期管理以及协同调度等核心模块，下面对其关键设计进行说明。端侧AI统一分层架构如图1所示。

图1 端侧AI统一分层架构

底层推理框架以及硬件平台的不同会对上层业务造成一定影响，在此情况下，由中间件统一对外提供通用应用程序接口（API），无论使用哪种模型格式，均可使用同一种API进行访问；并且可以通过适配层屏蔽掉底层不同的框架或硬件之间的差异性，为上层提供统一操作体验。通过分层设计，还可以将配置加载、任务分发、推理执行以及结果输出等操作分离成不同的功能模块，进而方便之后的进一步开发与替换。

在模型更新方面，系统将更新逻辑独立封装为库文件，与主业务解耦，执行模型下载、校验、版本切换以及旧模型清理等任务，采用A/B分区的后台切换方案，在对用户体验没有很大影响的情况下完成对用户模型的升级。通过算力、模型大小来确定使用哪个版本的模型，让灰度发布更加灵活，降低升级对服务质量的冲击。

为了便于日常运维和问题分析，在端侧全链路运行日志中保存所有过程的耗时数据、系统资源占用、模型推理状态、任务调度情况以及异常记录等信息，并采用分层存储的方式，当网络不通时先将日志本地缓存，预留一段时间后再上传到云端，通过这种方式延长日志搜集时间，为现场人工检测预留充足时间。根据现场测试情况，通过实施该机制，异常检测效率平均提升约60%。

在生命周期管理方面，中间件可为模型提供完善的生命周期状态管理，涵盖加载、推理执行、内存分配与释放、动态更新、异常处理等方面；中间件采用内存池按需分配的方式，避免多模型并行运行时发生资源抢占冲突，提高整个应用系统的运行稳定性；应用端的开发者，只需对接口发送指令就能轻松完成模型部署及监控工作，无需关心底层的内存分配与线程调度等问题。

各个算法任务对于实时性有不同需求，对此系统将采用基于云边端协同的调度方式。当任务下达至终端后，由调度模块综合当前设备算力、网络情况和任务特性等因素判断最优执行方案。若任务对实时性要求高，则优先在端侧执行；若任务需要较大的计算量或依赖大模型，则上交给边缘或云端处理。此外，系统还提供了一系列端侧推理接口、边缘预处理接口以及云端协同推理接口等供业务方使用。

4 应用场景与实践效果

本文在端侧AI统一架构设计与实现过程中坚持工程可落地的目标，兼顾后续长期稳定地支撑实际产品和业务使用的需求。基于以上标准，本文选择已经量产的智慧中屏产品以及移动平台（如四足机器人等），分别从多模态业务支撑能力、运行效率及模型等维度，评估端侧AI统一架构的效果。

4.1 智慧中屏上的多模态AI业务实践

智慧中屏是家庭场景的中枢，要支持多种AI能力，包括语音交互、图像识别、人脸识别、画质增强等。在此之前，无论是通过拆分各个模态的独立模块实现，还是直接调用底层的接口进行认知任务处理，在处理上均会受到不同的影响和制约，无法很好地保障系统的整体性。在统一架构引入后，上层业务通过标准API调用AI能力，不再直接依赖具体硬件平台或推理实现，从而避免了同类模型在不同业务中重复接入的问题，整体资源调度更加集中可控。

在语音交互场景中，我们将端侧语音活动检测（VAD）、轻量级自动语音识别（ASR）以及本地意图识别模型统一纳入调度管理。实际测试结果显示，端侧指令的全链路平均时延由原有的310ms降至245ms。在复杂家庭环境下（如客厅嘈杂场景），系统稳定性也得到改善。平均每小时的连续误唤醒次数由4.3下降至1.1，语音链路整体响应时间的波动范围由原先的±90ms收敛至±35ms。

类似的优化同样体现在视觉相关功能中。对于需要长期运行的人脸检测与特征提取模型，在采用统一内存池和按需加载机制后，多模型并行情况下的峰值内存占用由612MB降至512MB。从用户感知效果来看，人脸识别应用在常规使用条件下的检测帧率由21FPS提升至27FPS；在用户头部存在连续轻微晃动的情况下，识别过程中每分钟的目标丢失次数由约3减少至不足1。这些改进使刷脸解锁、家庭成员识别等日常应用更加流畅稳定。

4.2 视频防抖算法在可移动终端设备中的应用

智慧中屏作为固定安装设备，其测试结果验证了架构在静态场景的稳定性。为进一步检验通用性，本文在可移动的四足机器人上进行了动态环境测试。在机器人运动过程中，支撑结构搭载的摄像头会产生明显晃动，在视频中存在较多不稳定运动噪声，影响后期视觉模型对运动物体的识别效果。

针对这一问题，我们将自研的“光流估计+Kalman滤波”视频防抖算法集成至统一架构，使输入视频得到稳定处理，实验设定机器人运动速度为0.8m/s，且机身绕中心轴的最大摆动幅度约为15°。未做处理前，视频相邻帧平均特征点偏移量为7.1像素，偏移量最大值大于18像素；利用防抖算法进行稳定后，平均偏移量降至2.8像素，偏移量最大值小于5.6像素。四足机器人视频防抖对比效果如图2所示。

图2 四足机器人视频防抖对比效果

画面稳定性的提升对下游视觉任务产生了直接影响。在相同运动条件下，端侧目标检测模型连续识别失败次数由每分钟约14降至3；姿态估计模型的关键点抖动幅度也由±11像素降低至±4像素。防抖模块本身具备较好的实时性，在仅使用CPU的情况下，单帧处理时延控制在5～8ms，相比整条视觉推理链路约67ms的总体耗时，其额外开销可以忽略。

在量产阶段，端侧AI软件平台结合A/B分区机制实现了模型的平滑升级。后台统计显示，单次模型升级周期（包括下载、校验、版本切换与清理）的平均耗时稳定在2.4～2.9s之间，升级失败率由每万次37次降至9次以下。系统每日汇聚约10万条结构化日志，总体规模波动控制在±8%以内。

5 结论

本文针对家庭智能终端场景，提出了有助于端侧稳定可靠运行的AI统一架构。该架构通过统一接口层，将模型加载、推理调用、资源管理等核心能力封装为模块化中间件，实现多模型并行运行支撑，并采用基于A/B分区的模型热更新、版本全量对比和保留旧版本用于回退等一系列完整流程，保障了模型替换对业务的影响可控。

除此之外，还建立了完整的推理全链路日志和生命周期管理机制，可以对端侧模型进行持续的运行状态追踪，一旦发生异常情况可迅速找到对应的异常问题点；通过结合云边端的协同调度方式，在维持关键交互过程实时性的前提下，提升了整体算力资源的利用率。与之前的方案相比，任务响应时间得到了有效缩短，模型更新效率得到了极大提高，系统的稳定性和安全性都得到了改善，其中最直观的体现是：在语音交互和视觉识别这两类对时效性要求较高的家庭场景中，用户体验得到了显著提升。

通过工程实践可以看出，端侧AI已经在智能终端体系中起到关键作用。后续研究将进一步开展该统一架构在可穿戴设备、车载终端等异构终端的适用性验证，重点研究算力受限场景下模型的高效部署与稳定运行技术。