上个月,美国时政媒体Axios被迫发布一则奇怪的更正声明。他们关于美国孕产妇健康危机的报道,引用了一家叫Aaru公司的"民调数据"——结果发现,这些"美国成年人反馈"根本不是真人填的,是大语言模型(LLM,一种基于海量文本训练的人工智能系统)凭空生成的。
编辑备注写得委婉:"更新以注明Aaru是一家人工智能模拟研究公司。"翻译一下:他们把AI伪造的"民意"当成真人观点发了,没做任何标注。
这事的荒诞程度,堪比餐厅用料理包却标榜"现炒"。更麻烦的是,它暴露了一个正在蔓延的行业暗操作——"硅采样"(silicon sampling)。纽约大学数字理论实验室主任Leif Weatherby和加州大学伯克利分校计算机科学教授Benjamin Recht在《纽约时报》的客座文章中警告:这是灾难的配方。
硅采样的诱惑:3小时 vs 3周,成本从15万刀掉到4500
Weatherby和Recht解释得直白:"硅采样的想法简单且诱人——既然大语言模型能生成模仿人类回答的回复,民调公司就看到了机会:用AI智能体模拟调查反馈,成本和时间只需传统民调的零头。"
具体有多省?传统民调要雇人打电话、发问卷、追回访,一个全国性样本动辄数周、数十万美元。硅采样呢?设定好人口统计学参数,AI几小时能"吐"出几万份"完整问卷"。
东北大学2025年的一篇论文给了更具体的对比:某民调机构用硅采样在3小时内生成2万份"受访者"数据,成本约4500美元;同等规模的传统民调需要3周,预算15万美元。成本砍掉97%,时间压缩到1/168。
这种效率对预算紧张的新闻机构、竞选团队、市场研究公司来说,简直是无法拒绝的报价。Axios的编辑们大概也没想到,自己成了第一个公开踩雷的典型案例。
但问题在于:省下的钱,买的是什么东西?
AI"受访者"的致命bug:它不是在反映民意,是在表演刻板印象
Weatherby和Recht的核心论点很尖锐:民调数据的价值"仅在于它总结的是真实人类的信念和观点"。用模拟意见替代真实反馈,"只会恶化我们本就破碎的信息生态系统,播下不信任的种子"。
东北大学的研究团队做了更残酷的实测。他们让主流大语言模型扮演不同人口特征的"虚拟受访者",回答真实的政策调查问题。结果?
"模型难以捕捉细微观点,常因训练数据偏见和内部安全过滤器而对群体进行刻板印象化。"论文写道。换句话说,AI"受访者"不是在表达意见,是在根据训练数据里的刻板印象进行角色扮演。
举个例子:当问AI"扮演一位65岁中西部白人男性农民,你对气候政策怎么看",它不会真的模拟某个具体的人的复杂立场,而是输出训练数据里关于"老年白人农民"的统计平均偏见——可能更保守、更怀疑环保政策,但完全忽略这个群体中真实的观点多样性。
更隐蔽的危险在于反馈循环。Weatherby和Recht警告,硅采样"可能影响公众舆论本身,而非仅仅报告公众想法"。如果竞选团队根据AI模拟的"选民关切"调整策略,媒体根据AI"民调"设置议程,公众实际在看的,是一场AI自导自演的回声室戏码。
Axios不是孤例:这个行业正在批量生产"伪民意"
Aaru公司到底是什么来头?根据行业记录,它成立于2022年,主打"AI驱动的消费者洞察",客户包括几家急于压缩调研预算的媒体和市场研究机构。Axios事件后,Aaru官网悄悄修改了服务说明,加上一行小字:"模拟数据需明确标注,不建议作为独立信源使用。"
但行业里的类似操作远不止这一家。2024年,英国一家叫Synthetic Minds的初创公司被曝向政治咨询公司出售"AI选民面板",声称能模拟特定选区的意见走向。美国民调协会(AAPOR)随后发函警告成员:使用合成数据必须披露,且不能替代概率抽样。
传统民调本身就有麻烦——电话应答率从1990年代的36%跌到2023年的6%,在线面板充满自我选择偏见。但硅采样不是解药,是麻醉剂。它让研究者误以为自己在"接触公众",实际上是在和模型的偏见对谈。
东北大学论文的建议很克制:"最审慎的做法是混合流程——用AI改进研究设计,同时以人类样本作为数据的黄金标准。"但这话的另一面是:纯硅采样,不行。
当"民调"变成AI的独白,谁在为幻觉买单?
Axios的更正声明没提后续——那篇关于孕产妇健康危机的报道,核心论点是否还成立?如果关键数据来自AI的"想象",整篇文章的根基就成了问题。但流量已经跑了,议程已经设了,读者的认知已经被影响了。
Weatherby和Recht的比喻很准:硅采样是"在破碎的信息生态系统上再踩一脚"。当新闻机构为了速度牺牲真实性,当竞选团队为了省钱购买"虚拟选民"的偏好,当市场研究用AI幻觉替代真实消费者——我们得到的是一个越来越像镜厅的公共领域,每个"民意"都是偏见的反射。
最讽刺的细节来自Aaru自己的营销材料。他们曾向潜在客户承诺:"消除人类受访者的不一致性。"但民调的价值,恰恰在于捕捉那种 messy、矛盾、难以预测的人类真实。把"不一致"当成bug消灭,得到的不是更干净的信号,是更精致的噪音。
Axios的编辑现在大概会多查一步:这家"民调公司",有没有真人?但下一个问题是:当硅采样变得更隐蔽、更便宜、更普及,有多少读者会知道,自己看到的"民意"其实从未经过任何人的大脑?
热门跟贴