通信世界网消息(CWW)近年来,随着家庭智能设备的普及,像智慧中屏这类具备算力的新型终端,逐渐变成家庭服务“中枢”。过去很多依赖云端的功能,包括语音识别、图像解析等,随着终端本身算力的提高,逐渐由云端处理向终端本地服务迁移。同时随着安全意识的普及,用户越来越希望对话、影像等敏感数据能在本地设备上处理,而不是上传至云端,此类需求推动“端侧AI”成为家庭智能终端升级的核心方向。但市面上家庭终端的芯片算力、内存、操作系统五花八门,若在这些异构边缘终端部署多类AI模型,会遇到硬件接口五花八门、模型更新烦琐、终端资源分配无序、接入网络复杂等各类问题。针对上述实际痛点,结合运营商大规模研发与部署智慧中屏等家庭智能设备的实践经验,本文设计并搭建了一套用于异构终端部署的端侧AI统一架构,在此基础上设计了一套云边端三层协同推理流程,覆盖管理模型从上线、更新到下线的全生命周期,让AI能力能够更稳定、可控地集成到边缘终端上。

1 集中式云端AI方案技术现状

智能家居业务在早期发展阶段,一般采用在云端集中化部署AI能力的方式。该方式实现简单,属于典型的集中式部署模式,具备语音识别、图像处理及内容推荐等多方面能力,但在实际家庭使用场景中存在不少技术缺陷。

由网络依赖引起时延的问题:云端AI服务是通过互联网传输相关数据的,而家庭Wi-Fi信号存在时强时弱的情况,在网络带宽不足、网络时延较高的情况下,无论是语音交互还是视频分析类的应用都存在较明显的时延,导致用户体验波动较大。

摄像头、麦克风等传感设备广泛部署于家庭场景,用于持续采集环境数据,而如果将所有的原始数据都上传至云端进行处理,则会给用户的隐私带来极大的安全隐患。

因此,业界认识到应进行AI端云结合,将一部分AI能力放到终端,这才是合理的方向。

2 端侧AI统一架构的基础概念与设计

2.1 端侧AI基础概念

“端侧AI”通过边缘终端所具备的算力实现部分感知、推理、决策等功能。相比于“云端AI”,端侧推理由于其具备低时延、本地算力和隐私保护等优点,在智慧家庭等智能场景具有明显优势[7]。例如,对于家庭智能而言,如果语音或者图像识别在智慧中屏本地执行,其语音或图像交互效果会明显优于云端AI计算方案。此外,相关研究显示,推理下沉至端侧能大幅降低语音、图像上传频率,减少带宽占用,防范隐私泄露的风险。

2.2 云边端协同理念

近几年,对于云计算本身以及智能计算而言,以云边端协同为核心的技术架构已成为行业共识:一方面尽可能保护好数据的隐私;另一方面,可以利用终端侧的低时延优势与云端的强算力、大容量优势,充分发挥三者的协同增益效应。

通常情况下,在这种结构中,云端负责比较复杂的模型训练和管理,并将模型能力下发至终端;终端侧负责轻量化、时间敏感的推理任务,并将必要的结果反馈至云端,从而形成持续优化的闭环。

行业实践也明确了类似的思路,在中兴通讯的6G内生AI网络方案中,采取了分层设计模式,并通过模型和资源管理模块实现云边端统一调度。NextG联盟、欧盟6G-IA等产业联盟亦强调要从6G设计伊始,就重点考虑终端算力、跨层协同等问题。

从现有研究结果及产业发展相关情况看,云边端的融合能够充分利用三者各自的计算能力,根据应用的不同需求灵活调动云边端三级资源,对于提升整个系统的性能与稳定性具有很大的增益作用。

2.3 模型生命周期管理

在端侧AI协同体系的构建过程中,模型生命周期的管理是不可回避的问题。例如IBM提出的AI Gateway架构,通过统一对接接口、统一抽象封装等方式实现模型版本管控,并支持更新、回滚等全生命周期管理,其核心思路是降低高层应用与底层模型的耦合。

类似的思路也可应用于端侧AI环境,为终端搭建一套统一的模型接口与模型集中管理体系,在不影响业务的前提下可实现模型升级替换;在边缘终端设备中通过容器化或分批更新的方式,待模型下发、升级及安装完成后,再启动设备上线服务;除了模型的更新之外,还应注意端侧AI落地在工程方面的问题,如多层级日志采集、模型运行状态检测等。

基于上述端侧AI平台设计思路,本文根据家庭智能终端场景的实际使用条件及限制因素,提出了更加适合工程落地的整体架构以及相应的具体方案。

2.4 系统架构设计

针对家庭智慧中屏多模型并行运行、任务类型复杂以及终端资源受限等特点,本文设计了一套分层、模块化的端侧AI中间件体系。整体架构分为调用层、调度层和模型层,各层职责相对清晰,并通过统一接口和协议进行协同。系统主要包括统一接口、模型更新、日志上报、生命周期管理以及协同调度等核心模块,下面对其关键设计进行说明。端侧AI统一分层架构如图1所示。

打开网易新闻 查看精彩图片

图1 端侧AI统一分层架构

底层推理框架以及硬件平台的不同会对上层业务造成一定影响,在此情况下,由中间件统一对外提供通用应用程序接口(API),无论使用哪种模型格式,均可使用同一种API进行访问;并且可以通过适配层屏蔽掉底层不同的框架或硬件之间的差异性,为上层提供统一操作体验。通过分层设计,还可以将配置加载、任务分发、推理执行以及结果输出等操作分离成不同的功能模块,进而方便之后的进一步开发与替换。

在模型更新方面,系统将更新逻辑独立封装为库文件,与主业务解耦,执行模型下载、校验、版本切换以及旧模型清理等任务,采用A/B分区的后台切换方案,在对用户体验没有很大影响的情况下完成对用户模型的升级。通过算力、模型大小来确定使用哪个版本的模型,让灰度发布更加灵活,降低升级对服务质量的冲击。

为了便于日常运维和问题分析,在端侧全链路运行日志中保存所有过程的耗时数据、系统资源占用、模型推理状态、任务调度情况以及异常记录等信息,并采用分层存储的方式,当网络不通时先将日志本地缓存,预留一段时间后再上传到云端,通过这种方式延长日志搜集时间,为现场人工检测预留充足时间。根据现场测试情况,通过实施该机制,异常检测效率平均提升约60%。

在生命周期管理方面,中间件可为模型提供完善的生命周期状态管理,涵盖加载、推理执行、内存分配与释放、动态更新、异常处理等方面;中间件采用内存池按需分配的方式,避免多模型并行运行时发生资源抢占冲突,提高整个应用系统的运行稳定性;应用端的开发者,只需对接口发送指令就能轻松完成模型部署及监控工作,无需关心底层的内存分配与线程调度等问题。

各个算法任务对于实时性有不同需求,对此系统将采用基于云边端协同的调度方式。当任务下达至终端后,由调度模块综合当前设备算力、网络情况和任务特性等因素判断最优执行方案。若任务对实时性要求高,则优先在端侧执行;若任务需要较大的计算量或依赖大模型,则上交给边缘或云端处理。此外,系统还提供了一系列端侧推理接口、边缘预处理接口以及云端协同推理接口等供业务方使用。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

4 应用场景与实践效果

本文在端侧AI统一架构设计与实现过程中坚持工程可落地的目标,兼顾后续长期稳定地支撑实际产品和业务使用的需求。基于以上标准,本文选择已经量产的智慧中屏产品以及移动平台(如四足机器人等),分别从多模态业务支撑能力、运行效率及模型等维度,评估端侧AI统一架构的效果。

4.1 智慧中屏上的多模态AI业务实践

智慧中屏是家庭场景的中枢,要支持多种AI能力,包括语音交互、图像识别、人脸识别、画质增强等。在此之前,无论是通过拆分各个模态的独立模块实现,还是直接调用底层的接口进行认知任务处理,在处理上均会受到不同的影响和制约,无法很好地保障系统的整体性。在统一架构引入后,上层业务通过标准API调用AI能力,不再直接依赖具体硬件平台或推理实现,从而避免了同类模型在不同业务中重复接入的问题,整体资源调度更加集中可控。

在语音交互场景中,我们将端侧语音活动检测(VAD)、轻量级自动语音识别(ASR)以及本地意图识别模型统一纳入调度管理。实际测试结果显示,端侧指令的全链路平均时延由原有的310ms降至245ms。在复杂家庭环境下(如客厅嘈杂场景),系统稳定性也得到改善。平均每小时的连续误唤醒次数由4.3下降至1.1,语音链路整体响应时间的波动范围由原先的±90ms收敛至±35ms。

类似的优化同样体现在视觉相关功能中。对于需要长期运行的人脸检测与特征提取模型,在采用统一内存池和按需加载机制后,多模型并行情况下的峰值内存占用由612MB降至512MB。从用户感知效果来看,人脸识别应用在常规使用条件下的检测帧率由21FPS提升至27FPS;在用户头部存在连续轻微晃动的情况下,识别过程中每分钟的目标丢失次数由约3减少至不足1。这些改进使刷脸解锁、家庭成员识别等日常应用更加流畅稳定。

4.2 视频防抖算法在可移动终端设备中的应用

智慧中屏作为固定安装设备,其测试结果验证了架构在静态场景的稳定性。为进一步检验通用性,本文在可移动的四足机器人上进行了动态环境测试。在机器人运动过程中,支撑结构搭载的摄像头会产生明显晃动,在视频中存在较多不稳定运动噪声,影响后期视觉模型对运动物体的识别效果。

针对这一问题,我们将自研的“光流估计+Kalman滤波”视频防抖算法集成至统一架构,使输入视频得到稳定处理,实验设定机器人运动速度为0.8m/s,且机身绕中心轴的最大摆动幅度约为15°。未做处理前,视频相邻帧平均特征点偏移量为7.1像素,偏移量最大值大于18像素;利用防抖算法进行稳定后,平均偏移量降至2.8像素,偏移量最大值小于5.6像素。四足机器人视频防抖对比效果如图2所示。

打开网易新闻 查看精彩图片

图2 四足机器人视频防抖对比效果

画面稳定性的提升对下游视觉任务产生了直接影响。在相同运动条件下,端侧目标检测模型连续识别失败次数由每分钟约14降至3;姿态估计模型的关键点抖动幅度也由±11像素降低至±4像素。防抖模块本身具备较好的实时性,在仅使用CPU的情况下,单帧处理时延控制在5~8ms,相比整条视觉推理链路约67ms的总体耗时,其额外开销可以忽略。

在量产阶段,端侧AI软件平台结合A/B分区机制实现了模型的平滑升级。后台统计显示,单次模型升级周期(包括下载、校验、版本切换与清理)的平均耗时稳定在2.4~2.9s之间,升级失败率由每万次37次降至9次以下。系统每日汇聚约10万条结构化日志,总体规模波动控制在±8%以内。

5 结论

本文针对家庭智能终端场景,提出了有助于端侧稳定可靠运行的AI统一架构。该架构通过统一接口层,将模型加载、推理调用、资源管理等核心能力封装为模块化中间件,实现多模型并行运行支撑,并采用基于A/B分区的模型热更新、版本全量对比和保留旧版本用于回退等一系列完整流程,保障了模型替换对业务的影响可控。

除此之外,还建立了完整的推理全链路日志和生命周期管理机制,可以对端侧模型进行持续的运行状态追踪,一旦发生异常情况可迅速找到对应的异常问题点;通过结合云边端的协同调度方式,在维持关键交互过程实时性的前提下,提升了整体算力资源的利用率。与之前的方案相比,任务响应时间得到了有效缩短,模型更新效率得到了极大提高,系统的稳定性和安全性都得到了改善,其中最直观的体现是:在语音交互和视觉识别这两类对时效性要求较高的家庭场景中,用户体验得到了显著提升。

通过工程实践可以看出,端侧AI已经在智能终端体系中起到关键作用。后续研究将进一步开展该统一架构在可穿戴设备、车载终端等异构终端的适用性验证,重点研究算力受限场景下模型的高效部署与稳定运行技术。