打开网易新闻 查看精彩图片

"帮我点一杯奶茶。"

"帮我在京东上买一个篮球。"

"帮我在猫眼上买一张电影票。"

豆包手机和各家APP的控制权争夺战还未有一个结果,千问点外卖的操作也只是深度打通了自家的生态,如今火遍全网的小龙虾(OpenClaw)也没能解决跨端自动化的难题。

但近日,两位来自某硬件大厂的工程师张志勇和单文榜,却用自研的Agent ZeroFlow。基于具备多模态能力的国产大模型,在安卓设备、Chrome 浏览器及 PC 桌面上完美实现了多模态操控能力ZeroFlow可以像真人一样看屏幕、点击、滑动、输入,完成一系列复杂的跨端自动化任务。

打开网易新闻 查看精彩图片

不一样的技术路线

在实现跨端自动化任务的尝试上,豆包手机和智谱的AutoGLM走的是截然不同的技术路线。

豆包手机通过与手机厂商合作,拿到了非常高的权限,可以绕过用户或app的授权环节,但这也直接点燃了app厂商们的抵抗情绪,引发了后续一系列的封禁动作。

智谱开源的AutoGLM则是基于adb协议拿到的操作权限,但这个模式无法直接在用户手机上跑通,所以AutoGLM走的是远程虚拟机模式,在虚拟机里用adb操作用户的手机。这种模式信任成本较高。

而ZeroFlow的解决方案核心依赖的是 Android 无障碍服务(Accessibility Service)。无障碍服务原本是 Android 为视障用户设计的系统级辅助功能,申请该权限后,Agent可以读取屏幕内容,获取当前界面所有文本、按钮、输入框的位置和内容。同时,Agent可以模拟人类操作,执行点击、长按、滑动、输入文字等手势。这套方案高度依赖Agent和底层模型的多模态操作能力,理论上是一套无法被App厂商封禁的解决方案。

打开网易新闻 查看精彩图片

原理听起来很简单,但实际的开发过程远比想象复杂。张志勇对创投家表示,其中一个最大的难点在于国内的很多网页在设计之初,为了防止自动化操作(本质上是"反爬虫"和"反外挂"的延伸),设计了很多的验证步骤和工程上的"隐藏"。比如你看到一个按钮在这里,但很有可能它的真实元素在一个非常远的地方。这让从代码维度理解网页变得十分困难,但从多模态维度就相对简单多了,这也正是有些大模型无法读取网页链接但可以读取网页截图的根本原因。

打开网易新闻 查看精彩图片

另一方面,如何用最少的截图让Agent理解正确的意图,也是一个工程优化上的难点。

单文榜对创投家表示,网页上的广告弹窗、自动跳转都会给多模态理解造成干扰。用最强的多模态模型去理解,肯定可以给出最正确的答案,但是消耗的Token成本却不一定是普通用户能够承受的。如何用便宜的模型、截取最少的图、达到最好的理解效果,这也是非常有挑战的工程难题。

打开网易新闻 查看精彩图片

安全与便捷的平衡

当聊到是否担心大厂做出同质化产品时,张志勇表示并不担心。大厂基于自身的生态隔离,即使有这个技术,也无法去实现真正跨平台、跨端的自动化操作,因为一旦一家大厂下场,就会被其他大厂针对,这一点正是创业团队的优势。

ZeroFlow借鉴了OpenClaw的开源理念,针对安全性、模型适配性、便捷性进行了深度架构设计与优化。

OpenClaw的核心安全风险在于它作为"拥有工具调用能力的AI"本身,能执行shell命令、读写文件、发送消息、访问网络,如果prompt被注入攻击或诱导,可能导致主机被控制、敏感数据泄露等问题。

ZeroFlow通过沙箱隔离+小模型脱敏机制应对这一风险。一方面在workspace将用户的敏感信息如密钥信息隔离隐藏,让AI自己都无法轻易找到敏感文件;另一方面,用小模型监控所有用户与大模型的信息交互,如遇到敏感信息,将会进行脱敏加密处理。这样用户存储在云端的敏感文件既无法被轻易找到,找到了也无法轻易解析。双重机制下,ZeroFlow让普通用户在享受Agent便利的同时,隐私也得到最大程度的保护。

在便捷性上,ZeroFlow将龙虾的使用门槛降到了新的"低度"。整个部署过程极度贴近互联网产品使用习惯,几乎感受不到。只需要打开浏览器,在网站上注册一个账号,就可以在对话框开始使用了。

OpenClaw因为基于OpenAI/Anthropic的Tool Calling规范设计,与国产模型的适配上一直存在一些问题。而ZeroFlow针对国内主流大模型(如 Kimi、DeepSeek 等)做了工程调优,不但优化了工具调用上的体验,还优化了提示词工程,将提示词长度平均缩短了近40%,显著降低了Token成本。

张志勇对创投家表示,普通用户使用ZeroFlow的Token成本大约可以降低30%。

从编程智能体到通用Agent

ZeroFlow的诞生并非一次蹭流量的粗暴套壳。

当大语言模型的浪潮刚刚涌现的时候,张志勇和单文榜团队就站在了最前沿。彼时,他们没有追逐某个宏大叙事,而是在解决一个极其具体的痛点,如何让工程师从繁复的编码细节中解放出来,将智识真正用在创造上。于是,他们内部孵化了第一代编程智能体,一个懂得上下文、能够预判意图、会主动补全逻辑的"代码伙伴"。

这个工具在他们的工程体系内悄然生长。从 GPT-3.5 时代的朴素提示词工程,到多轮对话记忆、工具调用、代码审查闭环……每一次迭代,都是被真实需求逼出来的进化。几年间,这套系统帮助他们自身的研发效率实现了数倍级别的跃升。

OpenClaw爆发的时间点上,张志勇回忆,他们坐在会议室里,看着那些演示视频,沉默了很久。不是因为震惊,而是因为他们认出了某种熟悉的东西,他们走过的路,正在被更广阔的世界重新走一遍。

那一刻,他们意识到,三年来锻造的不只是一个编程工具,而是一套关于'让智能体真正理解人类意图并持续执行'的方法论。

"如果这套方法论能让工程师效率倍增,它为什么不能让每一个行业的每一个人,都获得同样的解放?"于是,ZeroFlow 诞生了。

"一个人会走得更快"

打开网易新闻 查看精彩图片

从左至右为单文榜、张志勇

"我觉得Agent确实能让所有人的生活质量获得提升,所有人都应该被解放出来做一些更高位的事情,但现阶段最大的问题就是普通人接入的成本还是太高了。不仅指拥有一只龙虾,更是让这只龙虾能够自由地跨端自动化替主人解决真实场景下的问题。所以,我们想做的就是一个0接入成本、打开浏览器就能用的通用Agent。"张志勇说到。

“ZeroFlow不是编程助手的平替,而是将编程智能体的核心范式(理解意图 → 规划路径 → 调用工具 → 持续执行 → 反馈迭代)迁移到了更广泛的知识工作场景中。财务分析、运营流程、内容生产、数据洞察……凡是有重复、有逻辑、有输出的地方,都是 ZeroFlow 可以驻扎的领地。”单文榜表示。

当被问到为什么不选择在前司内部实现自己的理想时,张志勇和单文榜相视一笑:"我觉得一群人肯定会走得更远,但一个人会走得更快。对于这个时代而言,快可能更重要。"

目前,依零科技已获得个人天使和尚势资本的近千万天使轮投资,资金将主要用于产品功能的进一步完善和推广。