让AI"看懂"网页的野路子

像素与芯片

2026-04-15 18:18 ·北京

你的AI助手能写代码，却连按钮在哪都找不着——这事挺尴尬的。

Domscribe这家公司搞了个新玩法：不给AI看代码，直接让它"看"网页长啥样。用视觉（计算机视觉）而不是DOM树（网页结构文档）来理解界面，思路挺野的。

一图拆解：AI怎么"看见"网页

传统路线：AI读HTML→解析标签→猜位置。问题很明显——现代网页一堆动态加载、CSS魔法，代码和实际画面经常对不上号。

Domscribe的路线：截图→视觉识别→生成结构化描述。像给人看UI设计稿，而不是塞给他一坨代码。

这解决了AI Agent（智能代理）的老大难问题：操作浏览器时找不着北。比如让它"点击设置里的隐私选项"，它可能卡在三层菜单里打转。

为什么现在才有人做？

视觉理解模型（多模态大模型）去年才够用。以前截图给AI，它连"这是按钮还是图片"都分不清。

另一个隐藏需求：测试自动化。QA工程师最烦的就是写选择器（定位页面元素的代码），页面一改全崩。视觉方案抗折腾多了。

商业上的小心思

Domscribe没开源核心模型，卖的是API和托管服务。这很聪明——大模型能力 commoditize（商品化）太快，但"视觉解析网页"这个场景封装有粘性。

竞品思路对比：Browserbase、Stagehand这些Agent框架还在死磕DOM+LLM（大语言模型）混合方案。Domscribe押注纯视觉，是赌多模态进步速度超过网页复杂度增长速度。

有个细节很有意思：他们专门处理了阴影、圆角、半透明这些"视觉干扰项"。说明真做过落地，不是demo（演示）选手。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴