打开网易新闻 查看精彩图片

这是一个让人意想不到的时刻:AI模型写代码的速度已经比我快上一千倍,但用浏览器上网却比我慢十倍。

它能从零开始写出一个编译器,却在网页面前显得手足无措,仿佛第一次接触互联网。

这种能力上的巨大反差,揭示了一个被忽视的真相。

代码是逻辑的纯文本表达,规则清晰,边界明确。网页则是为人类眼睛设计的视觉迷宫,充满了按钮、表单、弹窗和广告。AI目前处理网页的方式是不断截图、分析、再截图、再行动,这种“看一步走一步”的笨拙方式,效率自然高不到哪里去。

更深层的瓶颈在于:网页庞大且碎片化,跨页面没有共享记忆状态。模型每次都要从头理解整个页面结构,就像一个失忆的人在陌生城市里反复认路。

有人开始尝试解决这个问题。比如构建互联网的共享状态地图,让AI拥有跨页面的连贯记忆。也有人认为,让AI通过API直接获取数据,比逼它模仿人类点击鼠标要靠谱得多。

毕竟浏览器从来不是为AI设计的。

最核心的洞见来自一位开发者的观察:代码生成的速度已经解决了,但代码生成与可靠执行之间的协调层,才是真正的瓶颈。我们还没解决协作问题。

这种能力的错位创造了一个诡异的“生产力倒挂”现象。开发者现在花在调试浏览器奇奇怪怪的问题和研究API文档上的时间,反而比写核心逻辑还多。AI能重构整个代码库,却点不对一个按钮。

还有开发者提到,AI写的代码会制造出一种“外星Bug”,那些沉默失败的错误,比显而易见的功能性Bug更难捉摸。

值得思考的是,这种局面可能只是过渡期的短暂现象。

当AI需要像人类一样去“看”界面、点按钮、填表单,这本身就是一种错配。未来的方向大概率是AI通过专门的协议与系统直接对话,数据以AI能理解的格式呈现,而非困在人类界面的像素迷宫里。

那个不需要打开浏览器窗口、一切自动化操作都在后台悄然发生的时代,可能比我们想象的更近。

浏览器,正在成为新时代的瓶颈。

x.com/snowmaker/status/2020709127065133562