你的AI助手能写代码,却连按钮在哪都找不着——这事挺尴尬的。
Domscribe这家公司搞了个新玩法:不给AI看代码,直接让它"看"网页长啥样。用视觉(计算机视觉)而不是DOM树(网页结构文档)来理解界面,思路挺野的。
打开网易新闻 查看精彩图片
一图拆解:AI怎么"看见"网页
传统路线:AI读HTML→解析标签→猜位置。问题很明显——现代网页一堆动态加载、CSS魔法,代码和实际画面经常对不上号。
Domscribe的路线:截图→视觉识别→生成结构化描述。像给人看UI设计稿,而不是塞给他一坨代码。
这解决了AI Agent(智能代理)的老大难问题:操作浏览器时找不着北。比如让它"点击设置里的隐私选项",它可能卡在三层菜单里打转。
为什么现在才有人做?
视觉理解模型(多模态大模型)去年才够用。以前截图给AI,它连"这是按钮还是图片"都分不清。
另一个隐藏需求:测试自动化。QA工程师最烦的就是写选择器(定位页面元素的代码),页面一改全崩。视觉方案抗折腾多了。
商业上的小心思
Domscribe没开源核心模型,卖的是API和托管服务。这很聪明——大模型能力 commoditize(商品化)太快,但"视觉解析网页"这个场景封装有粘性。
竞品思路对比:Browserbase、Stagehand这些Agent框架还在死磕DOM+LLM(大语言模型)混合方案。Domscribe押注纯视觉,是赌多模态进步速度超过网页复杂度增长速度。
有个细节很有意思:他们专门处理了阴影、圆角、半透明这些"视觉干扰项"。说明真做过落地,不是demo(演示)选手。
热门跟贴