AI流量爆发之后，互联网上的“大多数”可能已经不是人了|agent|互联网|流量|爬虫|网络信息

“在互联网上，没人知道你是一条狗”，这是三十多年前的老梗了。而到了2026 年的情况是，屏幕另一端大概率既不是狗也不是人，而是机器。

网络安全公司 HUMAN Security 在 3 月 26 日发布了《2026 年 AI 流量与网络威胁基准报告》，基于其防御平台在 2025 年处理的超过一千万亿次（quadrillion）交互数据，给出了一组惊人的数字：2025 年，互联网上的自动化流量同比增长了 23.51%，大约是人类流量增速（3.10%）的 8 倍。其中，AI 驱动的流量从 1 月到 12 月增长了 187%，月均规模接近翻了三倍。来自 AI Agent 和 Agent 浏览器的流量同比暴涨了 7,851%。

就在一周前的 SXSW 大会上，Cloudflare CEO Matthew Prince 也给出了类似的判断。他预测到 2027 年，AI 机器人流量将超过人类流量。Cloudflare 为全球大约 20% 的网站提供服务，能看到相当大比例的 HTTP 请求，Prince 的判断就是基于这些流量曲线。他举了一个直观的例子：一个人在网上买相机，可能会浏览五个网站；替你执行同样任务的 AI Agent，可能会访问五千个。

在此之前，Imperva 在 2025 年 4 月发布的年度恶意机器人报告已经显示，2024 年自动化流量占到全部网络流量的 51%，十年来首次超过人类活动。其中恶意机器人占全部流量的 37%，连续第六年上升。

几家公司的测量口径和客户构成各不相同，数据之间没法简单对齐，但趋势方向是一样的：机器正在成为互联网上的多数派。

而 HUMAN Security 这份报告真正有意思的部分，还是在于它对 AI 流量内部结构变化的拆解。

2025 年初，AI 训练爬虫（training crawler）占全部 AI 驱动流量的大约 90%，实时抓取器（AI scraper）占剩下的 10%，Agent 类流量几乎可以忽略不计。到年底，训练爬虫的份额降到了 74%，抓取器涨到了 24%，而 Agent 类流量从无到有，占到了 1.7%。比例看起来很小，但增速极为夸张：抓取器流量年内增长了 597%，Agent 流量增长了 7,851%。

这三类 AI 流量做的事情完全不同。训练爬虫批量采集数据来训练模型，本质上是在“读”互联网。实时抓取器为 AI 产品的即时功能服务，比如你问 ChatGPT 一个关于某款产品最新价格的问题，背后就有抓取器去网上拉实时数据，喂给检索增强生成（Retrieval-Augmented Generation，RAG）管道。而 AI Agent 做的事情又进了一步：它们不光是读取网页，还要在网页上操作，浏览商品、填写表单、比价、甚至完成结账。

报告对 Agent 流量的页面分布做了拆解：77% 的 Agent 活动发生在商品和搜索页面，8.8% 在账户页面，约 5% 在身份验证流程中，2.3% 出现在结账页面。结账页面的占比不高，但性质完全不同，AI 系统正在不经人工实时干预的情况下自主完成交易。这在 2025 年之前基本还停留在概念阶段，现在已经是可观测到的事实了。

按运营商来看，OpenAI 旗下的各类机器人（GPTBot、ChatGPT User、OAI-SearchBot、ChatGPT Agent 等）贡献了大约 69% 的 AI 驱动流量。Meta 大约占 16%，Anthropic 大约占 11%，剩下所有运营商加起来不到 5%。可以说，一家公司关于如何对待 OpenAI 爬虫的决策，就能决定它面临的 AI 流量中近七成的命运。这种集中度意味着，少数几家 AI 公司的政策变化可以在一夜之间重塑整个互联网的流量格局。

行业分布也高度集中。零售与电商、流媒体与媒体、旅游与酒店三个行业吸收了超过 95% 的 AI 驱动流量。原因不复杂：这些行业拥有结构化程度最高、更新频率最快的数据，如商品目录、实时票价、新闻内容，恰好是 AI 产品最需要的燃料。

Cloudflare 的年度回顾报告从另一个维度印证了类似的格局。2025 年 AI 机器人（不含 Googlebot）平均占 HTML 请求的 4.2%，而 Googlebot 单独占了 4.5%，Google 的爬虫同时为搜索索引和 AI 训练服务，抓取页面数量是 OpenAI GPTBot 的三倍以上。其中增长最快的是用户动作类爬虫，即因用户向 AI 提问而触发的实时抓取，2025 年增长超过 15 倍。

到了 2026 年 1 月和 2 月，这种趋势还在愈演愈烈，根据 DataDome 的数据，其网络在这两月就记录了 79 亿次 AI Agent 请求，环比增长 5%。对于其中一个客户，Agent 流量在 30 天窗口内平均占到了总流量的 9.75%。

随着数量的增长和结构的变化，许多新的问题也冒了出来。

HUMAN Security 报告中最核心的一个判断是：AI Agent 正在重塑的商品发现、账户管理、结账数字等交互环节恰好也是网络攻击者最密集攻击的环节。合法的 AI 商务和自动化欺诈之间的行为差异，正在变得极其微小。

AI Agent 正在大量涌入的那些数字交互环节恰好也是网络攻击者最密集攻击的环节。两种流量的行为模式几乎重叠。

2025 年，全球网站访问中接近五分之一是抓取攻击，几乎是 2022 年的两倍。登录后账户接管（post-login account compromise）的尝试翻了四倍多，HUMAN 平台为每个客户平均标记了 40.2 万次此类尝试，2024 年这个数字还不到 10 万。信用卡欺诈测试（carding）的总量自 2022 年以来飙升了 250%。

虚假账户创建从 2023 年到 2024 年增长了 259%，2025 年又增长了 89%。HUMAN 的威胁追踪系统在 2025 年全年识别出超过 75 万个不同的威胁画像（threat profile），其中仅抓取攻击就占了 62%。

放具体行业里来看，被重点攻击的主要是流媒体和媒体企业，2025 年有将近 71% 的登录流量在尝试账户接管，两年前这个数字是 37%。科技和 SaaS 领域，受重点攻击的公司有超过三分之二的访问是抓取攻击。一家大型零售商仅在 2025 年 12 月就遭遇了 92 亿次抓取攻击尝试。一家制药电商在 10 月和 11 月的抓取攻击占比一度突破 70%。

暗网上的账户价格变动也提供了一个侧面视角。金融服务和科技类账户在变贵，某加密货币交易所的被盗账户售价从不到 500 美元涨到了 4,500 美元，通常说明防御在起作用，攻击成本被抬高了。但旅游和酒店类账户在变便宜，某连锁酒店的忠诚度计划账户从 201 美元跌到了 40.5 美元，某航空公司的账户从 175 美元跌到了 45.5 美元，攻击者显然找到了更高效的路径。

除了那些增长率，整个报告中最值得注意的数据是：在 HUMAN 防御平台分析的全部交互中，良性自动化与恶性自动化的比率，只差 0.5 个百分点。

这意味着什么？一个 AI Agent 快速浏览商品页面、登录账户、填写支付信息、完成结账，这一整套行为，如果是代表消费者的购物助手在做，就是合法的 Agent 商务；如果是欺诈脚本在做，就是自动化信用卡盗刷。行为模式几乎一模一样，区别只在于意图。

传统的安全逻辑建立在一个二元判断上：是人还是机器人？如果是机器人，就拦截。这套逻辑在 Agent 时代不再成立。快速的页面浏览、程序化的表单填写、自动化的结账，这些曾经被视为典型攻击特征的行为，现在也是合法 AI 商务的正常操作。Solomon 对此表示：认为“机器就是坏的、人就是好的”，这种想法已经不现实了。你必须生活在一个机器代表我们行动的世界里，然后在这个基础上建立持久的信任。

把所有自动化流量都当作威胁的企业会挡掉收入。放任不管的企业会吞下欺诈损失。两条路都走不通。

而且身份信任本身也在被腐蚀。HUMAN 的 Satori 威胁情报团队分析发现，相当比例声称来自 ChatGPT、Mistral 和 Perplexity 的爬虫请求，实际上并非来自这些运营商的基础设施。攻击者伪造 AI 爬虫的用户代理字符串，是为了利用企业对已知 AI 爬虫开放的白名单和速率限制豁免来获取访问权限。

印第安纳大学信息学与计算机科学教授 Filippo Menczer 在接受 CNBC 采访时也指出，通过用户代理字符串来估算机器人流量，本身就是一种噪声很大的测量方式，结果高度依赖样本来源和测量位置。HUMAN Security 的报告本身也把这一点列为已知局限。

企业面对的因此是一个嵌套的问题：不仅要判断一个交互是否可信，还要判断这个交互声称的身份是否真实。

从时间线上看，AI 流量的增长和大模型的发布节奏之间有明显的关联。报告指出，2025 年 8 月到 10 月是训练爬虫流量增长最陡峭的时段，10 月达到峰值。而 11 月 17 日到 12 月 11 日之间，xAI、Google、Anthropic、OpenAI 四家公司接连发布了新一代前沿模型。10 月的爬虫高峰与模型发布前的数据采集周期吻合，大规模抓取往往先于模型上线。

这构成了一种新的自我强化循环：模型越大、越新，对训练数据的需求就越大；用户越多，实时抓取和 Agent 活动就越频繁；AI 产品越好用，就有越多人把日常任务交给 Agent，Agent 又生成更多流量。Prince 在 SXSW 上的说法是：跟新冠期间的流量激增不同，那次是短期冲高后稳定在新水平，而 AI 带来的流量增长是持续的，看不到任何会让它停下来的因素。