大家好,我是 Jack Bytes,一个专注于将人工智能应用于日常生活的程序猿,平时主要分享 AI、NAS、开源项目等。

一直在用AI Agent的兄弟们应该会遇到过头疼的问题,这些 Agent 总是无法很好的操作浏览器。

比如,我想让AI Agent模拟人的行为自己浏览网页、搜索资料、整理资料等等。

通过一些Playwright等工具,很容易触发网站的反爬机制。

今天在逛基 Hub 的时候,发现了一个开源项目,能够通过CDP 框架直接操作 Chrome 浏览器,完全模拟人的行为,可以适用于完全自由的浏览器任务。

下面我们一起来看下吧。

一、介绍

browser-harness借助了浏览器的开发工具箱,使用轻量级、可编辑的 CDP 框架,将 Agent 直接连接到了真实的浏览器。可以进行完全自由的浏览器任务。

换句话说,就是用让 AI Agent 使用你真实的浏览器,比如你的浏览器已经登录了小红书,那么Agent 就可以通过操作你的浏览器,浏览小红书,甚至发布笔记,不会受到反爬机制的干扰。

原理是通过 WebScoket 连接到 Chrome,中间无需任何其他操作。

下面是它的一个工作流程实例:

  ● agent: wants to upload a file● agent-workspace/agent_helpers.py → helper missing● agent writes it       agent_helpers.py│                        + custom helper✓ file uploaded
二、安装

安装方式也很简单,直接在Claude Code中发送下面的内容即可:

Set up https://github.com/browser-use/browser-harness for me.Read `install.md` and follow the steps to install browser-harness and connect it to my browser.

然后 Agent 就会自动安装browser-harness

跟着 Agent 的提示操作就行了。

三、体验

接下来体验一下browser-harness

输入下面的提示词:

通过浏览器帮我看下 Google 最近 10 年的股票信息,给出一些投资建议

可以看到 Agent 识别到了需要使用browser-harness来完成任务。

打开网易新闻 查看精彩图片

然后通过浏览器打开了 Google 的股票页面:

打开网易新闻 查看精彩图片

Agent在执行的过程中,发现 Google 财经获取数据不太顺利,自动判断用 Yahoo Finance 查看

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

自动滚动到了图表区域:

打开网易新闻 查看精彩图片

并且自动点击时间范围选择按钮,进行时间范围选择:

打开网易新闻 查看精彩图片

反正就这样一顿操作吧,Agent 操作浏览器也算是完成了任务。

大家感兴趣的话快去试试吧!

我是 Jack Bytes

一个专注于将人工智能应用于日常生活的半吊子程序猿!

平时主要分享 AI、NAS、Docker、搞机技巧、开源项目等技术,喜欢的话请关注吧!

打开网易新闻 查看精彩图片