出品|《态度》

作者|纪川

编辑|定西

当大模型、多模态和Agent成为企业AI讨论里的高频词,视觉AI的问题并没有因此消失,反而以更具体的方式重新回到现场。

“客户缺的不仅仅是算法,更是如何把算法持续用起来的一套体系。”格灵深瞳研发副总裁闫梓祯在谈到公司新推出的视觉智能工坊VE²S(Visual End-to-End Studio)产品时对网易科技表示。在他看来,过去很多视觉AI项目的核心问题,并不只是模型精度不够,而是算法生产和业务运营之间存在断层。

这种断层在企业现场尤其明显。

在传统视觉AI交付模式下,客户提出一个需求,算法团队就针对这个需求训练一个模型。比如要识别安全帽,就做一个安全帽算法;要识别人员离岗,就做一个离岗算法;要判断柜台服务动作是否合规,就再做一个新的规则和模型。项目制交付可以解决单点问题,但企业业务本身并不会停在单点上。一个摄像头角度变了,一套工服换了,一个业务流程调整了,算法效果就可能出现波动。

在闫梓祯看来,过去的模式更像是“客户要什么算法,我们就交付什么算法”。如果客户需要20个算法,厂商就交付20个算法;如果场景变化,就再由工程师进场重新调试。这种方式在早期视觉AI落地中行得通,但当客户的场景越来越多、需求越来越碎、变化越来越快时,单纯依靠项目制和人工交付,就会变得越来越“重”。更关键的是,视觉AI的使用方往往不是算法工程师,而是业务人员。

在银行网点,真正理解柜面流程的是运营人员;在工厂车间,最熟悉安全规范的是一线管理者;在园区安防场景里,最清楚告警优先级和处置流程的是安保团队。但在过去的系统里,这些人通常只能提出需求,不能直接参与算法训练、规则编排和效果纠偏。模型如何调整、数据如何回流、规则如何改写,仍然依赖技术团队。

“我们希望把它变成一个工具。”闫梓祯说。这里的“工具”,不是一个单独算法,也不是一个只负责展示结果的平台,而是一套能够让客户围绕自身业务持续生产、运营和迭代视觉智能能力的系统。

这也是格灵深瞳推出视觉智能工坊VE²S(以下简称“视觉智能工坊”)的出发点。

闫梓祯介绍,视觉智能工坊并不是一个完全从零开始的新产品,而是格灵深瞳过去十多年视觉智能落地经验的延续和升级。过去,格灵深瞳在智慧城市、智慧金融、体育等场景里积累了大量算法训练、业务系统和边缘部署经验。视觉智能工坊要做的,是把这些能力从一个个项目中抽出来,沉淀成可以复用的平台能力。

视觉智能工坊的核心能力有三层:MENTOR算法训练中心、EXPERT算法运营中心和SENTINEL边缘哨兵。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

视觉智能工坊三大核心能力

M层是算法训练中心,负责场景定义、数据生成、智能标注、训练评估、芯片适配等功能,把业务需求转化为可上线的算法能力。E层是算法运营中心,负责零样本启动、模型快速迭代、低代码编排等功能,把算法能力嵌入真实业务流程。S层是现场执行单元,负责设备接入、实时推理等功能,保障算法在边缘侧稳定运行。

换句话说,视觉智能工坊想解决的不是“有没有某一个算法”,而是“企业能不能自己持续生产和运营算法”。

在闫梓祯看来,这套系统的核心在于闭环。传统项目交付后,模型往往停留在上线那一刻。现场出现误报、漏报、低置信度样本,如果没有被系统性采集和回流,就不会变成下一轮模型优化的燃料。视觉智能工坊则试图把“数据采集—模型训练—业务编排—边缘部署—实时告警—数据回流—模型迭代”连接起来,让算法在真实业务中持续吸收反馈并自主进化。

他把这条链路称为“数据回流线”。有了这条线,模型不再只是一次性交付结果,而可以随着现场数据和业务规则变化继续更新。客户也不再只是购买一个固定算法,而是在自己的业务现场里建立一套视觉智能生产线。

这也解释了为什么格灵深瞳会在这个时间点推出视觉智能工坊。

一方面,多模态大模型正在改变视觉AI的能力边界。过去很多必须依赖专门小模型、专门标注和专门规则才能完成的任务,未来可能通过更通用的视觉理解能力、更灵活的语义表达和更自然的交互方式完成。另一方面,大模型并不会自动解决企业AI落地问题。模型能看懂视频,不等于它能进入银行、工厂、园区、交通等真实场景;模型能回答问题,也不等于它能稳定接入设备、响应告警、符合权限要求,并在低成本下长期运行。

因此,对一家长期从CV时代走来的AI公司来说,视觉智能工坊更像是一次产品形态的升级:底层能力在向多模态和Agent演进,但最终交付给客户的,不再只是一个模型算法,而是一套可部署、可运营、可迭代的智能系统。

这并不意味着人工完全退出。

相反,闫梓祯更强调的是人和系统的重新分工。算法工程师不再为每一个碎片化需求重复写代码、调参数,而是把更多能力沉淀到平台里;业务人员也不再只能等待技术团队响应,而可以通过低代码、规则配置和运营工具,参与到算法应用的构建过程中。视觉智能工坊真正想降低的,是企业把AI从“可演示”推向“可持续使用”的门槛。

在格灵深瞳看来,视觉AI下一阶段的竞争,已经不只是模型指标的竞争,也不是谁能交付更多单点算法的竞争,而是谁能把模型能力转化为企业可复用的生产能力。多模态、Agent、国产化适配和边缘计算,最终都要回到一个问题:客户现场能不能用起来,能不能稳定运行,能不能随着业务变化持续优化。

围绕视觉智能工坊的产品逻辑、M/E/S三层架构、商业模式变化、企业落地难点,以及多模态和Agent在视觉场景中的应用,网易科技与格灵深瞳研发副总裁闫梓祯进行了一次对话。以下为对话实录,经不改变原意的编辑。

不再只卖一个算法:格灵深瞳想给企业搭一条视觉智能生产线

网易科技:我们先从产品本身聊起。先简单介绍一下视觉智能工坊这一产品最初是怎么被定义出来的?

格灵深瞳:视觉智能工坊并不是一个从0到1全新做出来的产品,它更多是从1到10逐步升级出来的,是我们过去十多年视觉智能落地经验的延续。

从整体架构来看,底层包括异构计算、训练推理框架等能力,都是我们多年积累下来的。

网易科技:视觉智能工坊有哪些核心能力?你们把它拆成M、E、S三层架构,分别对应什么角色和定位?

格灵深瞳:格灵深瞳是国内对芯片生态适配度较高的企业之一。早在2019年前后,公司就开始围绕国产AI芯片进行视觉算法与行业场景的适配工作,当时在华为昇腾芯片上做人脸识别、智慧交通、智慧城市等相关业务时,我们已经做了很多性能优化。

后来,我们又陆续适配了更多国产芯片,包括算能、海光、百度昆仑芯等。同时,我们自研的多模态大模型,比如LLaVA-OneVision-1.5/2.0系列,在训练与迭代过程中,也得到了开源全模态框架LoongForge的支持,进一步提升了多模态模型在国产算力环境下的训练效率和适配能力。

现在Agent很火,我们也把自己的Agent Runtime能力加入到底层能力中。基于这些底层能力,我们构建了应用层,也就是我们所说的“M+E+S”三层架构。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

视觉智能工坊Glint Agent页面

其中,M层来源于我们过去内部训练各种算法时使用的平台。过去算法工程师接到需求后,会基于内部算法训练平台来训练模型,这套平台后来逐步产品化,演化成现在的M层。

E层来源于我们过去在智慧城市、智慧金融、智慧体育等业务平台中的能力抽象。我们把其中强行业属性的业务层去掉,保留下来能够支撑业务构建和落地的通用内核,形成了现在的E层。它解决的核心问题是:如何把算法能力真正转化为客户能够感知到的业务价值。

举个例子,过去算法工程师训练出一个检测模型,交给智慧体育业务使用。但客户真正需要的并不是一个“检测技术”,而是运动项目的完成度如何、能否评分等业务结果。模型到业务之间需要有一座桥梁。E层提供的就是低代码业务编排能力,不仅我们自己的工程师可以使用,很多客户自己也可以基于它完成业务搭建。

S层最早对应的是公司内部边缘计算产品线。它解决的是如何在有限算力的设备中和边缘复杂环境中,采集和理解原始数据,并推送到业务平台上。我们把边缘业务中的通用能力抽象出来,包括如何做更具性价比的硬件、如何在有限算力下解决更多问题,最终形成了现在的S层。

当我们把M、E、S三层抽象完成后,发现它们组合在一起能够发挥更大的能力。因此,我们把三层整合成统一产品,并重新设计了它们之间的数据联动,形成现在的视觉智能工坊。

网易科技:能不能结合一个具体案例,讲一下M、E、S是如何搭建和协同工作的?中间完整链路是什么?

格灵深瞳:格灵深瞳做智慧银行已经很久了。在银行运营和安保场景中,我们的落地规模也是行业里比较大的。

最开始交付金融场景时,主要是拼人工、拼人力。我们派了很多前端工程师,甚至算法工程师到现场做交付。但后来发现,这会变成一个无底洞,因为客户需求一直在变化。

银行业务有一个很大的特点:它是全国性的,各省、各市都在做。我们发现,不仅有新增算法需求,而且每个城市的需求都不一样。一旦规模放大,靠人力就很难持续。

所以当时我们开始思考,如何把产品进行自动化、智能化封装和改造。也是基于当时的金融产品,我们有了M、E、S这套架构的雏形。

在银行网点层面,需要接入摄像头并进行算法分析,这对应现在的S层。S层本质上要求低延时,也要做一些算法初筛。但它的能力很难做得很强,因为如果在网点部署高算力,成本会上升,而且很多网点环境也不适合部署高算力设备,比如网络、电力等条件不一定支持。

因此,我们把高算力的一部分迁移到分行层。分行通常会有类似机房的环境,可以部署设备。这样一方面可以做二次识别或二次过滤,让算法更准;另一方面,一个设备可以管理多个边缘设备,也就是多个网点,从而做一些偏运营的事情。

有了E层之后,我们就不只是做视觉算法,也可以做数据分析,还可以把一些动态能力放进去,解决更多场景和业务问题。

M层则来源于银行对专业算法的需求。银行会发现自己需要训练很多专用模型,同时还要考虑成本。但这些训练在E层算力不够,而数据又不能离开银行。于是我们就在总行数据中心构建训练集群,全国各地的数据可以汇总到总行做统一训练和分析,再下发到全国各地。

因为总行能够汇聚各省数据,所以我们可以在总行训练出偏金融场景的视觉基础模型。这个模型对金融业务的理解会越来越深。基于它再去训练银行各类业务子模型时,泛化能力也会越来越强。整个M、E、S体系就是在这样的金融场景中逐渐构建起来的。

网易科技:这样看来,视觉智能工坊是不是替代了过去一些零散售卖的业务?或者说,之前分散购买产品的客户现在是不是只需要购买视觉智能工坊这一项就可以?

格灵深瞳:可以这样理解。过去客户可能是零散地购买不同能力,现在我们提供的是一个完整的工具包。当然,这个包里面客户仍然可以自由组合,选择自己需要购买的部分。但整体上,我们已经把视觉AI落地过程中可能遇到的问题尽可能包含进去了。

不过它依然是一个偏通用的平台,里面并不内置完整的强行业属性内容。比如在银行行业,我们可能有专门的银行产品线,里面内置了上百个银行运营相关算法。

但视觉智能工坊本身不会直接内置这些行业算法。我们提供给客户的是,如果你有一个新的场景,比如智慧工厂,很多新的业务能力都可以基于这个平台构建和生产出来。

网易科技:从客户使用的角度看,视觉智能工坊让他们具备了一定的自定义、延展和再生产能力。但是这个能力的边界在哪里?哪些事情客户可以自己完成,哪些环节仍然需要格灵深瞳参与?

格灵深瞳:我们通常是这样定义的:首先,我们提供的平台本身支持客户自己持续迭代。每个算法方案都可以持续优化。

在落地中,我们比较推荐的一种方式是视觉基座模型的微调。在E层里,这个功能我们内部可能叫“快标快训”。客户只需要找到几条自己想要的数据,或者认为不满意的数据,快速标注一下,然后点击“一键迭代”,系统就可以生成一个新的版本。这个版本基于客户很小的微调需求完成迭代升级,对算力成本要求很低,客户不需要购买完整训练平台,就可以在现场快速调整模型。

我们已经把平台交互做得非常友好。客户不需要理解AI或视觉算法背后的运转机制,也能够完成模型训练。

当然,客户也可以向我们提出需求,比如希望我们提供一个初始版本的算法,这就相当于服务能力,我们也可以提供。不管客户是购买我们的服务,还是自己从0到1构建,或者购买我们的服务后再自己继续迭代,平台都支持。

过去我们提供一个算法后,客户如果想进一步提升效果,往往需要再找我们,由算法工程师或专家到现场判断:是需求变了,还是模型能力不够,或者数据分布发生了变化。现在很多问题可以在现场直接解决。

除了客户主动发现问题并调整之外,平台内部还有一条我们称为“数据回流线”的能力。它可以自动发现模型是否需要升级。比如一个算法上线后会输出业务报警数据,平台在定期巡检时,如果发现业务报警数据和最初定义不完全匹配,就可以自动发现异常,并借助多模态大模型能力进行调整。

也就是说,模型有一定的自我进化能力。它进化完成后,可以给客户推送通知,提示模型已经自动迭代了一次,客户只需要判断这次迭代是不是自己想要的。如果确认,就可以直接上线。

持续进化:让用户端到端地构建解决自身业务问题的能力

网易科技:你们认为什么样的客户最适合使用视觉智能工坊?

格灵深瞳:凡是希望借助视觉AI能力,通过视觉传感器来做履职、安全合规、安全管理、预警事件等场景的客户,都可以考虑视觉智能工坊。

我们有各种不同规格,适合小场景、中场景和大场景。只要客户的需求和视觉AI相关,就可以考虑我们的产品。因为视觉智能工坊封装的是视觉AI落地的全栈能力。

网易科技:那对客户来说,视觉智能工坊最重要的价值是什么?

格灵深瞳:我认为最重要的价值是,客户可以通过我们的平台,端到端地构建真正能够解决自身业务问题的能力。

如果客户有新的业务需求,或者原有业务需求发生变化,我们可以保证平台能力能够进行迁移适配,也可以理解为“越用越聪明”。客户既可以主动调整它,也可以等待系统被动自我调整。

过去在一个场景中,算法效果可能已经不错,但一旦换了场景,或者业务发生变化,算法就可能不能用了。这个时候客户往往需要重新找我们或其他人再做一版新算法。现在这些问题很多都不需要再通过传统方式解决。

网易科技:那如果用户本身企业数据不足呢?尤其是新场景冷启动、长尾样本不足。视觉智能工坊具体能帮用户解决吗?

格灵深瞳:它确实解决了类似问题,但视觉智能工坊解决的不仅仅是数据问题。

作为AI企业,我们以前很难直接接触到客户数据。比如要做水利行业,如果找不到一个有代表性的客户陪我们一起优化算法,我们其实很难切进去。因为我们没有水利行业相关数据,也不知道客户的真实需求是什么。在公司内部直接推出一个水利解决方案,这并不现实。

现在视觉智能工坊首先就在解决类似问题。即便完全没有数据,我们也有一套冷启动方案,可以推出第一版算法并部署到现场。这个版本可能已经能够大致解决客户的准入问题,至少能够产生一些业务报警和实际价值。

这个时候,模型召回率可能还比较低。接下来我们就可以通过快速迭代,让它从第一版迭代到第二版、第三版……通过持续迭代,客户会感受到准确率越来越好、召回率越来越高。

本质上,我们把过去算法工程师的生产流程标准化到了产品中。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

视觉智能方案流程页面

网易科技:采用视觉智能工坊是否存在转换成本?

格灵深瞳:从我们目前内部评估来看,并没有太多转换成本。整体上,客户成本是下降的。

不过对部分客户来说,可能会有一个关键转变。有些客户会认为,你给我提供了很高的自由度,我可以自己解决问题,但我可能并不需要这种自由度,我只想要一套成熟方案。

对于这类客户,我们可以直接推荐完整行业产品;也可以派专家或工程师帮助他们完成调整,最终交付成熟产品。现在我们也具备这样的能力。

这种模式的好处是,我们自己的工程师也可以基于业务平台在客户现场搭建完整业务,不再像以前那样,需要在公司实验室环境和客户现场之间反复来回。

网易科技:如果有些企业仍然希望拿到完整解决方案呢?这和视觉智能工坊强调的自进化能力会不会冲突?未来这两种模式之间会是什么关系?

格灵深瞳:这两种模式并不冲突。对于客户来说,两种模式我们都可以提供。视觉智能工坊本身也支持这两种方式。客户只是多了一个选择。

即便客户现在觉得自己没有迭代需求,过一段时间也可能出现新的需求。对客户来说,视觉智能工坊降低了未来风险成本。

从大方向来看,随着大模型和AI技术发展,未来企业里可能会出现更多Agent或数字员工。如果交付链路和产品不升级,之后可能很难适配这个大趋势。

视觉智能工坊具备完整的平台化、工具化能力。如果未来客户希望通过自己的数字员工替代部分人工去完成算法迭代和升级,我们现在也已经具备这种能力。而传统交付模式中,客户买完以后系统就放在那里,后续很难变化。

技术要强而可控:Agent落地关键在选场景

网易科技:更底层来看,支撑视觉智能工坊的底层技术是什么?

格灵深瞳:首先,底层能力必须足够强。现在大家都在讲,基础设施能力要强,否则产品设计得再好,使用体验也会很差。

格灵深瞳过去几年一直坚定投入技术研发,比如我们还在训练自己的多模态模型。同时,我们也在投入AI基础设施,包括各种芯片的推理、训练适配和优化。我们也做过很多大规模AI落地,并在落地过程中探索新的方向和赛道。正是基于这些积累,我们才沉淀出视觉智能工坊。

网易科技:谈到你们在视觉领域的深耕,目前你们专注在解决哪些问题?比如视觉安防中,是提升精度,还是解决其他问题?

格灵深瞳:这些都会涉及。我们认为视觉智能工坊是一个全栈能力。

比如,如何更好地挖掘数据、检索数据,如何用跨模态能力检索数据,如何让视觉基座模型更强,如何让迁移训练效果更好,如何让推理更快,这些都是我们关注的方向。

但所有这些技术,本质上都是围绕一个目标展开的:让视觉算法在行业中更好地落地。我们都是基于实际需求来做技术。

网易科技:刚刚谈到自进化的能力,但有些企业可能会担心模型持续迭代带来的风险。你们如何看待这个问题?

格灵深瞳:模型迭代确实存在风险,这也是很多企业在使用Agent时主要担心的问题。今天很多人也提到“严肃场景”这个词,基础技术发展和严肃场景落地是两条线,我们在产品中加入了很多策略,保证模型持续迭代是可控的。

只要进入To B交付、做企业级应用,这种可控能力就是必须具备的。这里既包括安全相关能力,也包括效果保证能力。

比如每一次模型迭代,我们都要保证它是正向的。里面有严格评估流程,Benchmark评估也已经固化在我们的算法交互体系中。只有通过这套体系,才意味着这次迭代是正向的。

网易科技:安全也是大家比较关注的问题,这方面视觉智能工坊具体是如何设计的?

格灵深瞳:我们现在在平台里构建了多种安全体系,也加入了一些安全相关模型,用来解决输出是否可靠、是否存在不安全行为等问题。

在S层,我们也有内置安全芯片,通过整个体系来保证安全。但我认为,企业级安全很难说做到尽头,很难说现在做的东西就已经完全够用了。因此后续我们还会在安全上做更多功能,投入更多精力。

网易科技:现在很多做Agent的公司都说,Agent在企业层面落地比较难。你们在落地过程中遇到的难点是什么?

格灵深瞳:我认为落地难的本质在于企业的容错要求。

很多企业希望Agent完全取代人,而且取代之后不能出错。但现在的Agent还没有能力在完全脱离人的情况下做到不出错。

所以关键是要选场景,在合适的场景里使用Agent。另外,我们也看到很多公司是为了落地Agent而落地Agent,但我们不是这样。我们是在自己关注的业务领域里,把Agent加入进去,让它解决应该解决的问题。

也就是说,我们把过去的一些事情Agent化,这样可能节约大量人工,或者节省一定成本。我们是这样思考问题的,而不是客户说想引入Agent,我们就凭空造一些Agent强行加入。整体上,我们还是比较务实的。

所以我们也认为Agent落地确实比较难,但目标是清晰的。

打开新场景:把生产算法的能力交给客户

网易科技:这种技术变化是否也意味着你们的售卖方式和商业模式发生了变化?

格灵深瞳:是的。现在视觉智能工坊售卖的是一整套工具。对客户来说,购买这套工具后,就能够解决实际问题。

过去我们更多是在卖算法。因为大家通常把我们称为“算法公司”,客户会直接提出算法需求,比如需要20个算法,我们就派工程师去解决,最后按照一个算法多少钱来收费。

现在不一样了。我们卖给客户的是完整工具。工具交付后,很多算法其实不再需要单独产生费用,所以商业模式确实发生了一些变化。

网易科技:某种程度来说,这种模式下你们是不是也节省了人力成本?

格灵深瞳:对我们来说,它更主要的不是为我们节省人力成本,而是帮助客户节省成本。

过去客户的需求是连续变化的。这个月可能有10个需求,下个月又有另外10个需求,以前客户每个月都可能需要再向我们支付费用。现在很多需求客户可以自己通过平台解决,只有在解决不了时再找我们。

当然,如果客户人力不足,或者出于其他考虑仍希望我们来提供算法服务,我们也会继续提供,这和以前一样。

网易科技:如果视觉智能工坊帮助客户节省了算法服务的成本,那对你们来说这部分收入要从哪里收回呢?

格灵深瞳:首先我们可以解决客户更多的实际问题,带来增量业务,另外也可以拓宽更多的行业。过去我们只能一个行业一个行业地做,比如智慧城市、智慧金融、智慧体育等等,我们只能基于具体行业来做产品和服务。

如果突然有一个新的行业客户,比如能源行业,想购买我们的服务,过去我们其实很难直接提供能力。因为客户可能提出100个算法需求,我们至少要完成大部分需求后,对方才可能购买服务。但我们当时没有相应算法和数据,需要投入很大精力先解决算法和数据问题,推出能源行业解决方案,再卖给客户并到现场迭代升级。

这意味着我们的行业客户范围比较窄,可能一年只能拓展一个或两个新行业。

现在视觉智能工坊让我们的方向拓宽了。比如能源行业即使我们之前没有做过,也可以直接向客户推荐视觉智能工坊。我们有信心这个产品可以解决客户的实际问题。当然,如果某个行业我们已经构建过完整的产品体系,也可以直接推荐行业产品。但如果这个行业我们没有做过,就可以推荐具备完整迭代能力的视觉智能工坊。因此,我们的销售渠道和可覆盖行业都发生了变化。

网易科技:确实是可拓展的场景更多了。面对新场景、新客户时,你们如何说服他们使用呢?

格灵深瞳:一方面是我们主动去找客户,另一方面也会出现客户内部的自然扩散。

还是以银行为例。最开始我们进入银行时,解决的是偏安保业务,比如是否有人尾随、是否有人摔倒等。但当我们把整个体系构建起来后,它的能力边界被拓宽了。

很多安保客户会把我们推荐给运营部门。因为安保和运营是两个部门负责。运营部门看到安保侧已经取得了很多成果,同时平台自由度也很高,就会考虑能否用同一个平台构建自己的运营业务和算法。

于是他们会主动找到我们,询问是否可以用这个平台解决运营问题。试用之后,如果发现效果不错,他们可能并不需要额外采购或付费,而是直接登录我们的账号体系,用整个平台去构建运营相关算法。

所以,只要产品好用,客户能够感知到价值,产品自然会扩展到更多场景。

网易科技:从客户侧看,他们对于这种改变的意愿和态度如何?

格灵深瞳:我们现在确实遇到两类客户。一类客户明确表示自己需要这个能力;另一类客户会说,听起来很好,但暂时用不上。

不过只要我们能够证明客户整体成本没有上升,客户通常也能接受。因为这相当于预留了一项未来可能用得上的能力。

网易科技:今年很多和视觉相关的公司都开始往世界模型方向靠。你们是否也有这种想法?

格灵深瞳:暂时还没有。

世界模型是一个非常宽泛的概念,不同公司对世界模型的定义可能都不一样。从我们的业务角度来看,我们还是希望更聚焦一些。

我们仍然在投入多模态模型、视觉大模型,但更希望这些模型能在具体行业应用中发挥价值。比如我们落地比较多的是泛安防行业,我们希望视觉大模型能够在泛安防行业中作为通用基座,更好地解决泛安防问题。

对于纯粹通用的、脱离行业属性的模型,甚至一直通用到世界模型,我们会非常慎重。我们更希望专注于实际业务方向。如果未来有机会,也可能会探讨,但目前来看会比较慎重。

网易科技:视觉智能工坊未来会沿着怎样的路径继续迭代?

格灵深瞳:我认为最大的迭代方向,是让Agent在其中发挥越来越高的比重。比如现在可能有六七成能力可以完全通过Agent实现,未来这个比例会继续提高。

另外,现在很多偏行业积累的SOP或规则,后续可能会逐步替换为由大模型自己判断。

另一个方向是安全。Agent和大模型在企业中落地,最大的问题仍然是安全。我们需要构建完整的安全体系,保证各个层面可控。比如模型迭代是否可控、权限是否可控、数据隔离是否可控等。

我们现在也在交付一些对安全要求很高的行业,安全会是我们之后重点投入的方向。

网易科技:放到更大的行业趋势里,你们怎么看今年AI在安防以及相关行业应用中的落地变化?

格灵深瞳:在整个安防或泛安防行业里,大家对多模态技术还是非常拥抱的。我们过去在泛安防里做的很多CV落地,现在都在做增量改进,都会用多模态大模型技术进行整体升级。

因此,我觉得未来一年仍然会围绕多模态技术做一些改进。基于多模态大模型,可能会出现一些增量升级。但从我们判断来看,未来一年在技术落地层面不会有翻天覆地的变化,尤其是在泛安防大范围落地中,更多还是基于现有落地情况做增量升级。

比较大的变化可能是国产化。现在国内环境对国产化整体适配深度的要求越来越高。接下来不仅要求国产化,还会要求在国产化上的推理性能、效果指标等达到更高水平。不管是效果精度,还是推理成本,都需要优化到更深程度。这就需要我们在国内生态上做更多优化工作。

所以我认为,国产化在成本和生态层面变化会比较大。技术和产品形态上可能会有很大变化,但在大范围落地中,不会立刻出现翻天覆地的变化。