对话格灵深瞳：一套视觉智能生产线，破解企业 AI 落地困境|格灵|深瞳|算法|视觉

出品｜《态度》

作者｜纪川

编辑｜定西

当大模型、多模态和Agent成为企业AI讨论里的高频词，视觉AI的问题并没有因此消失，反而以更具体的方式重新回到现场。

“客户缺的不仅仅是算法，更是如何把算法持续用起来的一套体系。”格灵深瞳研发副总裁闫梓祯在谈到公司新推出的视觉智能工坊VE²S（Visual End-to-End Studio）产品时对网易科技表示。在他看来，过去很多视觉AI项目的核心问题，并不只是模型精度不够，而是算法生产和业务运营之间存在断层。

这种断层在企业现场尤其明显。

在传统视觉AI交付模式下，客户提出一个需求，算法团队就针对这个需求训练一个模型。比如要识别安全帽，就做一个安全帽算法；要识别人员离岗，就做一个离岗算法；要判断柜台服务动作是否合规，就再做一个新的规则和模型。项目制交付可以解决单点问题，但企业业务本身并不会停在单点上。一个摄像头角度变了，一套工服换了，一个业务流程调整了，算法效果就可能出现波动。

在闫梓祯看来，过去的模式更像是“客户要什么算法，我们就交付什么算法”。如果客户需要20个算法，厂商就交付20个算法；如果场景变化，就再由工程师进场重新调试。这种方式在早期视觉AI落地中行得通，但当客户的场景越来越多、需求越来越碎、变化越来越快时，单纯依靠项目制和人工交付，就会变得越来越“重”。更关键的是，视觉AI的使用方往往不是算法工程师，而是业务人员。

在银行网点，真正理解柜面流程的是运营人员；在工厂车间，最熟悉安全规范的是一线管理者；在园区安防场景里，最清楚告警优先级和处置流程的是安保团队。但在过去的系统里，这些人通常只能提出需求，不能直接参与算法训练、规则编排和效果纠偏。模型如何调整、数据如何回流、规则如何改写，仍然依赖技术团队。

“我们希望把它变成一个工具。”闫梓祯说。这里的“工具”，不是一个单独算法，也不是一个只负责展示结果的平台，而是一套能够让客户围绕自身业务持续生产、运营和迭代视觉智能能力的系统。

这也是格灵深瞳推出视觉智能工坊VE²S（以下简称“视觉智能工坊”）的出发点。

闫梓祯介绍，视觉智能工坊并不是一个完全从零开始的新产品，而是格灵深瞳过去十多年视觉智能落地经验的延续和升级。过去，格灵深瞳在智慧城市、智慧金融、体育等场景里积累了大量算法训练、业务系统和边缘部署经验。视觉智能工坊要做的，是把这些能力从一个个项目中抽出来，沉淀成可以复用的平台能力。

视觉智能工坊的核心能力有三层：MENTOR算法训练中心、EXPERT算法运营中心和SENTINEL边缘哨兵。

视觉智能方案流程页面

网易科技：采用视觉智能工坊是否存在转换成本？

格灵深瞳：从我们目前内部评估来看，并没有太多转换成本。整体上，客户成本是下降的。

不过对部分客户来说，可能会有一个关键转变。有些客户会认为，你给我提供了很高的自由度，我可以自己解决问题，但我可能并不需要这种自由度，我只想要一套成熟方案。

对于这类客户，我们可以直接推荐完整行业产品；也可以派专家或工程师帮助他们完成调整，最终交付成熟产品。现在我们也具备这样的能力。

这种模式的好处是，我们自己的工程师也可以基于业务平台在客户现场搭建完整业务，不再像以前那样，需要在公司实验室环境和客户现场之间反复来回。

网易科技：如果有些企业仍然希望拿到完整解决方案呢？这和视觉智能工坊强调的自进化能力会不会冲突？未来这两种模式之间会是什么关系？

格灵深瞳：这两种模式并不冲突。对于客户来说，两种模式我们都可以提供。视觉智能工坊本身也支持这两种方式。客户只是多了一个选择。

即便客户现在觉得自己没有迭代需求，过一段时间也可能出现新的需求。对客户来说，视觉智能工坊降低了未来风险成本。

从大方向来看，随着大模型和AI技术发展，未来企业里可能会出现更多Agent或数字员工。如果交付链路和产品不升级，之后可能很难适配这个大趋势。

视觉智能工坊具备完整的平台化、工具化能力。如果未来客户希望通过自己的数字员工替代部分人工去完成算法迭代和升级，我们现在也已经具备这种能力。而传统交付模式中，客户买完以后系统就放在那里，后续很难变化。

技术要强而可控：Agent落地关键在选场景

网易科技：更底层来看，支撑视觉智能工坊的底层技术是什么？

格灵深瞳：首先，底层能力必须足够强。现在大家都在讲，基础设施能力要强，否则产品设计得再好，使用体验也会很差。

格灵深瞳过去几年一直坚定投入技术研发，比如我们还在训练自己的多模态模型。同时，我们也在投入AI基础设施，包括各种芯片的推理、训练适配和优化。我们也做过很多大规模AI落地，并在落地过程中探索新的方向和赛道。正是基于这些积累，我们才沉淀出视觉智能工坊。

网易科技：谈到你们在视觉领域的深耕，目前你们专注在解决哪些问题？比如视觉安防中，是提升精度，还是解决其他问题？

格灵深瞳：这些都会涉及。我们认为视觉智能工坊是一个全栈能力。

比如，如何更好地挖掘数据、检索数据，如何用跨模态能力检索数据，如何让视觉基座模型更强，如何让迁移训练效果更好，如何让推理更快，这些都是我们关注的方向。

但所有这些技术，本质上都是围绕一个目标展开的：让视觉算法在行业中更好地落地。我们都是基于实际需求来做技术。

网易科技：刚刚谈到自进化的能力，但有些企业可能会担心模型持续迭代带来的风险。你们如何看待这个问题？

格灵深瞳：模型迭代确实存在风险，这也是很多企业在使用Agent时主要担心的问题。今天很多人也提到“严肃场景”这个词，基础技术发展和严肃场景落地是两条线，我们在产品中加入了很多策略，保证模型持续迭代是可控的。

只要进入To B交付、做企业级应用，这种可控能力就是必须具备的。这里既包括安全相关能力，也包括效果保证能力。

比如每一次模型迭代，我们都要保证它是正向的。里面有严格评估流程，Benchmark评估也已经固化在我们的算法交互体系中。只有通过这套体系，才意味着这次迭代是正向的。

网易科技：安全也是大家比较关注的问题，这方面视觉智能工坊具体是如何设计的？

格灵深瞳：我们现在在平台里构建了多种安全体系，也加入了一些安全相关模型，用来解决输出是否可靠、是否存在不安全行为等问题。

在S层，我们也有内置安全芯片，通过整个体系来保证安全。但我认为，企业级安全很难说做到尽头，很难说现在做的东西就已经完全够用了。因此后续我们还会在安全上做更多功能，投入更多精力。

网易科技：现在很多做Agent的公司都说，Agent在企业层面落地比较难。你们在落地过程中遇到的难点是什么？

格灵深瞳：我认为落地难的本质在于企业的容错要求。

很多企业希望Agent完全取代人，而且取代之后不能出错。但现在的Agent还没有能力在完全脱离人的情况下做到不出错。

所以关键是要选场景，在合适的场景里使用Agent。另外，我们也看到很多公司是为了落地Agent而落地Agent，但我们不是这样。我们是在自己关注的业务领域里，把Agent加入进去，让它解决应该解决的问题。

也就是说，我们把过去的一些事情Agent化，这样可能节约大量人工，或者节省一定成本。我们是这样思考问题的，而不是客户说想引入Agent，我们就凭空造一些Agent强行加入。整体上，我们还是比较务实的。

所以我们也认为Agent落地确实比较难，但目标是清晰的。

打开新场景：把生产算法的能力交给客户

网易科技：这种技术变化是否也意味着你们的售卖方式和商业模式发生了变化？

格灵深瞳：是的。现在视觉智能工坊售卖的是一整套工具。对客户来说，购买这套工具后，就能够解决实际问题。

过去我们更多是在卖算法。因为大家通常把我们称为“算法公司”，客户会直接提出算法需求，比如需要20个算法，我们就派工程师去解决，最后按照一个算法多少钱来收费。

现在不一样了。我们卖给客户的是完整工具。工具交付后，很多算法其实不再需要单独产生费用，所以商业模式确实发生了一些变化。

网易科技：某种程度来说，这种模式下你们是不是也节省了人力成本？

格灵深瞳：对我们来说，它更主要的不是为我们节省人力成本，而是帮助客户节省成本。

过去客户的需求是连续变化的。这个月可能有10个需求，下个月又有另外10个需求，以前客户每个月都可能需要再向我们支付费用。现在很多需求客户可以自己通过平台解决，只有在解决不了时再找我们。

当然，如果客户人力不足，或者出于其他考虑仍希望我们来提供算法服务，我们也会继续提供，这和以前一样。

网易科技：如果视觉智能工坊帮助客户节省了算法服务的成本，那对你们来说这部分收入要从哪里收回呢？

格灵深瞳：首先我们可以解决客户更多的实际问题，带来增量业务，另外也可以拓宽更多的行业。过去我们只能一个行业一个行业地做，比如智慧城市、智慧金融、智慧体育等等，我们只能基于具体行业来做产品和服务。

如果突然有一个新的行业客户，比如能源行业，想购买我们的服务，过去我们其实很难直接提供能力。因为客户可能提出100个算法需求，我们至少要完成大部分需求后，对方才可能购买服务。但我们当时没有相应算法和数据，需要投入很大精力先解决算法和数据问题，推出能源行业解决方案，再卖给客户并到现场迭代升级。

这意味着我们的行业客户范围比较窄，可能一年只能拓展一个或两个新行业。

现在视觉智能工坊让我们的方向拓宽了。比如能源行业即使我们之前没有做过，也可以直接向客户推荐视觉智能工坊。我们有信心这个产品可以解决客户的实际问题。当然，如果某个行业我们已经构建过完整的产品体系，也可以直接推荐行业产品。但如果这个行业我们没有做过，就可以推荐具备完整迭代能力的视觉智能工坊。因此，我们的销售渠道和可覆盖行业都发生了变化。

网易科技：确实是可拓展的场景更多了。面对新场景、新客户时，你们如何说服他们使用呢？

格灵深瞳：一方面是我们主动去找客户，另一方面也会出现客户内部的自然扩散。

还是以银行为例。最开始我们进入银行时，解决的是偏安保业务，比如是否有人尾随、是否有人摔倒等。但当我们把整个体系构建起来后，它的能力边界被拓宽了。

很多安保客户会把我们推荐给运营部门。因为安保和运营是两个部门负责。运营部门看到安保侧已经取得了很多成果，同时平台自由度也很高，就会考虑能否用同一个平台构建自己的运营业务和算法。

于是他们会主动找到我们，询问是否可以用这个平台解决运营问题。试用之后，如果发现效果不错，他们可能并不需要额外采购或付费，而是直接登录我们的账号体系，用整个平台去构建运营相关算法。

所以，只要产品好用，客户能够感知到价值，产品自然会扩展到更多场景。

网易科技：从客户侧看，他们对于这种改变的意愿和态度如何？

格灵深瞳：我们现在确实遇到两类客户。一类客户明确表示自己需要这个能力；另一类客户会说，听起来很好，但暂时用不上。

不过只要我们能够证明客户整体成本没有上升，客户通常也能接受。因为这相当于预留了一项未来可能用得上的能力。

网易科技：今年很多和视觉相关的公司都开始往世界模型方向靠。你们是否也有这种想法？

格灵深瞳：暂时还没有。

世界模型是一个非常宽泛的概念，不同公司对世界模型的定义可能都不一样。从我们的业务角度来看，我们还是希望更聚焦一些。