2026年5月,arXiv上出现了一篇让自动化开发者坐立不安的论文。研究团队测试了7款主流AI浏览器代理,发现一个细思极恐的事实:这些代理的鼠标轨迹、打字节奏等行为特征,形成了独特的"指纹"——不仅能区分AI和人类,甚至能精准识别具体用了哪个框架。

更麻烦的是,现有方案的行为一致性太强,很容易被归类为自动化流量。这篇文章从一个浏览器自动化开发者的视角,探讨如何用深度学习让AI代理的鼠标操作学会"你的风格",而不是套用千篇一律的"拟人化"模板。

打开网易新闻 查看精彩图片

先说说问题出在哪。目前主流框架处理鼠标移动"拟人化"的思路大致是这样:用贝塞尔曲线生成路径点,加上随机抖动和固定概率的过冲效果。看起来合理?但隐患恰恰在这里——所有用这个框架的人,生成的是同一类贝塞尔曲线;随机抖动服从同一分布;过冲触发概率是同一个固定值。跑1000个实例做轨迹聚类,会发现它们高度重叠。这就是行为指纹:识别一种模式,就能标记所有使用该框架的实例。

讽刺的是,"拟人化"功能加得越多,反而越不像人。因为没有统一的"人类"模式,所有实例共享同一套"拟人化"参数,这些参数本身就构成了一个巨大的集体指纹。

换个思路:与其用更复杂的规则模拟"人类",不如让模型从你的个人数据中学习"你"。如果模型基于你的真实鼠标操作数据训练,生成的轨迹带有你的个人风格,情况就完全不同了。

具体怎么做?行为克隆的第一步是采集个人鼠标轨迹数据。实现方式很轻巧——一个Tampermonkey脚本监听mousemove事件,记录从移动到点击的完整轨迹。20像素以下的移动视为静止点击,直接丢弃。我们关注的是移动模式,不是点击本身。

数据格式很简洁:视口宽高、轨迹点序列(x/y坐标和时间偏移毫秒)、目标HTML标签。为什么要记录目标标签?因为点按钮和点链接的轨迹真的不一样——按钮面积大,移动更随意;链接目标小,移动更谨慎。

核心转变就在这里:不是用规则模拟抽象的人类,而是用数据学习具体的你。当你的AI代理每一次移动都带着你独特的节奏和习惯,它就不再是流水线上的标准件,而成了难以归类的"个例"。