打开网易新闻 查看精彩图片

智东西
作者 徐豫
编辑 漠影

AI手机、AI PC、AI眼镜等智能设备正逐步AI Agent化,但这些小型终端要用上大模型能力,还差一把关键钥匙,即一套端边云联动的解决方案。

智东西1月6日报道,目前,大模型行业正呈现出端边云协同,以加速端智能场景落地的新趋势

过去一年,智能门锁、AI看护机、AI眼镜、无人机等多种形态的端侧AI产品密集涌入市场,主打轻量化部署,其内置的AI模型通常小而易用。然而,端侧设备的功耗和算力仍十分受限,涉及复杂计算的推理任务正在向边缘和云端转移。

换句话说,大模型所具备的算力优势与小模型侧重的低成本部署之间,还缺少一座连接的桥梁。字节跳动旗下的云服务平台火山引擎给出了它们的最新解法。

在2024年冬季火山引擎FORCE原动力大会上,火山引擎边缘云官宣全面升级其智能边缘,优化了物联网平台、智能平台、边缘大模型网关服务,并推出了边缘原生智能体。这可以看作是一整套基础设施,可以用这个系统连接起端侧小模型应用和边云大模型能力

火山引擎边缘智能技术负责人谢皓解释道,端侧主要提供了OneSDK一站式解决方案,使得端侧的嵌入式设备也能用上大模型;边缘侧上线了大模型网关,提升了大模型调用过程的效率和稳定性;中心侧会编排一些智能体,降低大模型部署应用的难度;而边缘原生智能体可面向不同行业定制个性化的智能体。

打开网易新闻 查看精彩图片

对于边缘智能最新技术优势、边缘智能新应用场景和边缘智能下一步发展重点,谢皓也向智东西分享了他的看法。

他认为,边缘AI的发展当前可以分为基础设施和应用场景两个方面来看,前者主要负责解决连接和计算问题,并提供大模型调度和计算推理能力。而边缘AI应用场景的发展目前仍受限于碎片化和难规模化,谢皓称,一套支持端边云联动的智能边缘架构多数情况可复用,在一定程度上能拓宽边缘AI的部署范围。

为什么要强化AI Agent与大模型的连接,如何安全地实现计算任务的端边云协同处理,边缘智能解决方案能应对AI Agent时代的哪些难题?与火山引擎边缘智能技术负责人谢皓深入沟通后,我们详细拆解了一站式边缘智能解决方案的两大技术优势。

一、大中小厂都在用,AI Agent调动大模型有新招

从卷大模型技术到卷大模型应用,2024年AI Agent生态迎来了小高潮。据Cookie.fun最新数据显示,截至2025年1月4日,AI Agent整体市值已经达到173.6亿美元,过去7天的涨幅接近50%

打开网易新闻 查看精彩图片

除了资本市场热度升温,AI Agent自身能力也得到快速发展。《福布斯》2024年12月底援引业内人士观点称,预计2025年将出现能够依据简短提示词执行复杂任务的AI Agent。

在LangChain一份针对2024年AI Agent现状的调研报告中,1300多名受访者超半数已经在生产过程中使用Agent。其中员工规模介于100至2000名的中型公司占比63%,最常用Agent来为生产过程提效。

如果该调研进一步扩大筛选范围,把有计划应用AI Agent或正在开发AI Agent的公司都算在内,那么AI Agent的潜在和实际用户比例则高达78.1%

打开网易新闻 查看精彩图片

这也意味着,过去一年大多数公司有意愿引入AI Agent,但可能实际部署时遇到了各式各样的绊脚石,从而滞后了相关计划。其中可能不乏一些早前积累了AI模型资源的公司,那么基于一个更通用的边缘AI基础架构,按需把AI模型能力迁移至端侧设备,或许是其新的出路。

据公开信息显示,国内的润欣科技、地瓜机器人、上海一高校等不同领域的公司和单位,都开始加速落地大模型,以刺激业务增长。而这背后用到了火山引擎的边缘智能基础架构。

为了更好地适应AI Agent时代,该边缘智能基础架构优化了4大方面,包括简化端智能接入流程,提升边缘云推理请求的加速性能、推理能力和安全性,增强大模型文件分发、智能体配置等功能,以及新增了多个行业智能体。

谢皓接受智东西采访时提到这套解决方案所涉及的AI模型,云上服务主要使用豆包大模型,而解析提示词等步骤则会用到一些带有行业属性的、自家微调的传统CV模型,或者开源的小模型。

二、会节约算力的智能决策器,隐私安全为最高优先级

通常情况下,AI Agent需要依赖云端服务器为其提供大量的算力和算法支持,但同时也面临着算力资源争抢和部署成本高昂的问题。相对于云服务而言,端智能在本地设备等端侧处理计算任务,能够有效降低时延和运算成本。

端智能在落地过程中可能会遇到以下四个方面的挑战,包括多平台集成、多SDK适配、多重设备身份管理和多种模型协同。对于上述多点联动的难题,火山引擎边缘智能上线了OneSDK、OneCredential和OneStop端智能一站式服务解决方案

1、一站式软件开发端智能解决方案OneSDK

端侧会集成一个软件开发工具包(SDK),基于该SDK可一站式解决在线升级(OTA)、日志记录、远程登入、设备管理等设备运维需求,设备密钥、设备证书等设备安全需求,以及多模型和多智能体调用的设备智能需求。

同时,端侧还提供硬件抽象层(HAL)接口,以便在实时操作系统(RTOS)、其他嵌入式操作系统以及无操作系统的设备上迁移SDK。

打开网易新闻 查看精彩图片

2、一站式跨云服务权限端智能解决方案OneCredential

该解决方案支持云上多个平台间的身份互认和权限穿透,使得设备端可共享一套密钥和证书,从而允许访问边缘大模型网关、物联网平台等多项服务。

这一举措将有效降低设备端的资源占用,以及多份证书的重复创建成本,并且也避免了重复身份认证所带来的额外服务调用。同时,在满足安全性的前提下,该做法还提升了设备端的整体性能。

另外,在OneCredential端智能解决方案中,每个设备粒度可按需token配额,以提供针对端侧更划得来的计量和计费策略。

3、一站式企业部署端智能解决方案OneStop

通过深度融合端云技术,OneStop主要为企业降低了端侧智能体的开发与接入门槛。

不过,上述端智能解决方案虽然给端侧设备接入AI Agent提供了更多技术支持,但还不能一揽子突破端侧AI的算力上限。由于算力和内存等条件的限制,端侧AI大多采用的是小模型,这也导致其难以兼顾一些复杂的计算任务,或者更加多元化的应用场景。

如果AI Agent消耗算力时,也可以“吃多少拿多少”,自行匹配每次计算任务是调用端侧的小模型,还是边缘或云端的大模型,便能以性价比更高的方式应对较为复杂的人机交互场景。火山引擎边缘云2024年年底推出的智能决策器,就充当了这个分配过程的总控室

据公开信息显示,该智能决策器可以依据提示词等信息,将任务按需分发至本地、边缘或云中处理。AI Agent推理请求难点主要是其对提示词的理解,因此该智能决策器的前端设置了一套提示词解析流程,即借助一个本地边缘大模型解析提示词,然后通过中心位的智能路由把解析结果传输给智能决策器。

打开网易新闻 查看精彩图片

那么接到一个计算任务时,该智能决策器如何界定需要用到本地、边缘还是云端的AI模型来处理呢?

其对于计算任务复杂程度的定性主要考虑两大方面,一方面是基于规则的静态决策,会综合考虑功耗、机型和温度等因素;另一方面是基于模型的动态决策,会从小模型、隐私判断和任务判断等维度考量适用情况。

但当决策结果出现矛盾时,数据安全和隐私将成为首要考虑原则。其决策先后顺序大致分为以下几步:计算任务的安全和隐私级别较高时,智能决策器的推理过程被要求仅调用本地模型;而计算任务的安全和隐私级别适中时,智能决策器再结合计算任务的复杂程度分流,涉及隐私的优先在本地处理,较为复杂的则倾向于调度至边缘或云端开展推理。

智能座舱为例,车内摄像头可能会拍摄记录到一些涉及隐私的对话和行为,谢皓称这种情况下智能决策器会倾向于本地化处理,但如果是需要联网、涉及影像插件等较为复杂的操作,更多时候会交给云上大模型处理。

在智能决策器决定将推理请求转发至本地设备外的过程中,具备标准接口、就近访问、推理加速和高鲁棒性四大核心能力的火山引擎边缘大模型网关,会提供进一步的支持,以提升边缘和云端“大脑”的访问效率。

打开网易新闻 查看精彩图片

具体来看,在标准接口方面,边缘大模型网关适配约20家主流大模型厂商,以及多家智能体提供商,实现与OpenAI相一致的标准接口,从而简化了开发流程。

就近访问方面,边缘大模型网关通过全球范围的边缘节点和智能流量调度策略,来实现端侧设备的就近快速接入,并降低延迟。

推理加速方面,边缘大模型网关采用了多种缓存技术和边缘推理方法,有效提高了查询速度,并增强了整体性能。

高鲁棒性上,边缘大模型网关设置了跨模型厂商的故障迁移机制,并应用了错误重试策略,以此增强请求处理的鲁棒性,使得计算任务处理的连续性和可靠性更强。

三、能联动四方的边缘原生智能体,支持AI Agent就近上云

边缘原生智能体是AI模型端侧落地的一个重要形式。

火山引擎方面提出了边缘原生智能体的四大必备能力,包括理解设备能力、连接物理世界、单智能体协同和多智能体协同。这也各自对应了人机交互场景中动态捕捉和理解信息、自主感知或操作设备、单智能体完成特定任务、多智能体配合完成复杂任务的需求。

其中,为了完善边缘原生智能体自主感知、操作设备的效果,火山引擎选择联动自家的低代码平台“扣子”,通过定制插件和工作流来实现边缘智能与家用设备、工业设备、车载设备等物理世界实体的连接。火山引擎方面称,目前边缘原生智能体已应用于相关智能数字工厂和智慧园区,涉及工业质检、园区安防等领域。

打开网易新闻 查看精彩图片

现阶段,火山引擎边缘云的分布式云网基础设施在海内外共有2500多个边缘节点,其网络时延控制在较低的1至40毫秒区间,支持端边互联、边边互联和边云互联场景,从而实现智能应用就近上云。

打开网易新闻 查看精彩图片

同时智能应用从端侧迁移到边缘或云端的过程中,无论是单智能体内部的端边云互传,还是多智能体之间的协同连接,都依赖于一个安全传输网络。对此,火山引擎边缘云在DDoS防护、边缘WAF和频次控制等传统安全防护措施的基础上,新增了针对AI Agent的边缘安全防护功能,包括提示词检测、系统提示词防御、结果检查等

打开网易新闻 查看精彩图片

结语:从各司其职到取长补短,端边云协同成AI应用大势

当前,虽然大模型种类、性能及其开发商都较为多元,可供支持部署AI Agent的选择比较多,但芯片、算力、能源等大模型相关资源仍处于僧多粥少的阶段,因此中小型公司在AI Agent的部署上,常常难以抢跑大公司。但如果只用成本较低的端侧AI,又还不足以覆盖公司所有的生产提效需求和场景。

端边云协同处理AI任务将有效降低AI应用部署的成本,节约算力和功耗,进一步降低中小型公司引入AI Agent的门槛。

同时,支持端边云协同的边缘智能基础架构,有助于不同行业快速借鉴、定制可行的AI模型落地样本。从火山引擎边缘云现阶段公开的成果来看,具身智能、端智能芯片、智能玩具、创新教育等行业内都拿出了实战案例。