Axios踩坑AI民调：3小时生成2万份"假问卷"

字节漫游指南

2026-04-12 08:08 ·北京

上个月，美国时政媒体Axios被迫发布一则奇怪的更正声明。他们关于美国孕产妇健康危机的报道，引用了一家叫Aaru公司的"民调数据"——结果发现，这些"美国成年人反馈"根本不是真人填的，是大语言模型（LLM，一种基于海量文本训练的人工智能系统）凭空生成的。

编辑备注写得委婉："更新以注明Aaru是一家人工智能模拟研究公司。"翻译一下：他们把AI伪造的"民意"当成真人观点发了，没做任何标注。

这事的荒诞程度，堪比餐厅用料理包却标榜"现炒"。更麻烦的是，它暴露了一个正在蔓延的行业暗操作——"硅采样"（silicon sampling）。纽约大学数字理论实验室主任Leif Weatherby和加州大学伯克利分校计算机科学教授Benjamin Recht在《纽约时报》的客座文章中警告：这是灾难的配方。

硅采样的诱惑：3小时 vs 3周，成本从15万刀掉到4500

硅采样的诱惑：3小时 vs 3周，成本从15万刀掉到4500

Weatherby和Recht解释得直白："硅采样的想法简单且诱人——既然大语言模型能生成模仿人类回答的回复，民调公司就看到了机会：用AI智能体模拟调查反馈，成本和时间只需传统民调的零头。"

具体有多省？传统民调要雇人打电话、发问卷、追回访，一个全国性样本动辄数周、数十万美元。硅采样呢？设定好人口统计学参数，AI几小时能"吐"出几万份"完整问卷"。

东北大学2025年的一篇论文给了更具体的对比：某民调机构用硅采样在3小时内生成2万份"受访者"数据，成本约4500美元；同等规模的传统民调需要3周，预算15万美元。成本砍掉97%，时间压缩到1/168。

这种效率对预算紧张的新闻机构、竞选团队、市场研究公司来说，简直是无法拒绝的报价。Axios的编辑们大概也没想到，自己成了第一个公开踩雷的典型案例。

但问题在于：省下的钱，买的是什么东西？

AI"受访者"的致命bug：它不是在反映民意，是在表演刻板印象

Weatherby和Recht的核心论点很尖锐：民调数据的价值"仅在于它总结的是真实人类的信念和观点"。用模拟意见替代真实反馈，"只会恶化我们本就破碎的信息生态系统，播下不信任的种子"。

东北大学的研究团队做了更残酷的实测。他们让主流大语言模型扮演不同人口特征的"虚拟受访者"，回答真实的政策调查问题。结果？

"模型难以捕捉细微观点，常因训练数据偏见和内部安全过滤器而对群体进行刻板印象化。"论文写道。换句话说，AI"受访者"不是在表达意见，是在根据训练数据里的刻板印象进行角色扮演。

举个例子：当问AI"扮演一位65岁中西部白人男性农民，你对气候政策怎么看"，它不会真的模拟某个具体的人的复杂立场，而是输出训练数据里关于"老年白人农民"的统计平均偏见——可能更保守、更怀疑环保政策，但完全忽略这个群体中真实的观点多样性。

更隐蔽的危险在于反馈循环。Weatherby和Recht警告，硅采样"可能影响公众舆论本身，而非仅仅报告公众想法"。如果竞选团队根据AI模拟的"选民关切"调整策略，媒体根据AI"民调"设置议程，公众实际在看的，是一场AI自导自演的回声室戏码。

Axios不是孤例：这个行业正在批量生产"伪民意"

Axios不是孤例：这个行业正在批量生产"伪民意"

Aaru公司到底是什么来头？根据行业记录，它成立于2022年，主打"AI驱动的消费者洞察"，客户包括几家急于压缩调研预算的媒体和市场研究机构。Axios事件后，Aaru官网悄悄修改了服务说明，加上一行小字："模拟数据需明确标注，不建议作为独立信源使用。"

但行业里的类似操作远不止这一家。2024年，英国一家叫Synthetic Minds的初创公司被曝向政治咨询公司出售"AI选民面板"，声称能模拟特定选区的意见走向。美国民调协会（AAPOR）随后发函警告成员：使用合成数据必须披露，且不能替代概率抽样。

传统民调本身就有麻烦——电话应答率从1990年代的36%跌到2023年的6%，在线面板充满自我选择偏见。但硅采样不是解药，是麻醉剂。它让研究者误以为自己在"接触公众"，实际上是在和模型的偏见对谈。

东北大学论文的建议很克制："最审慎的做法是混合流程——用AI改进研究设计，同时以人类样本作为数据的黄金标准。"但这话的另一面是：纯硅采样，不行。

当"民调"变成AI的独白，谁在为幻觉买单？

当"民调"变成AI的独白，谁在为幻觉买单？

Axios的更正声明没提后续——那篇关于孕产妇健康危机的报道，核心论点是否还成立？如果关键数据来自AI的"想象"，整篇文章的根基就成了问题。但流量已经跑了，议程已经设了，读者的认知已经被影响了。

Weatherby和Recht的比喻很准：硅采样是"在破碎的信息生态系统上再踩一脚"。当新闻机构为了速度牺牲真实性，当竞选团队为了省钱购买"虚拟选民"的偏好，当市场研究用AI幻觉替代真实消费者——我们得到的是一个越来越像镜厅的公共领域，每个"民意"都是偏见的反射。

最讽刺的细节来自Aaru自己的营销材料。他们曾向潜在客户承诺："消除人类受访者的不一致性。"但民调的价值，恰恰在于捕捉那种 messy、矛盾、难以预测的人类真实。把"不一致"当成bug消灭，得到的不是更干净的信号，是更精致的噪音。

Axios的编辑现在大概会多查一步：这家"民调公司"，有没有真人？但下一个问题是：当硅采样变得更隐蔽、更便宜、更普及，有多少读者会知道，自己看到的"民意"其实从未经过任何人的大脑？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴