【人工智能】AI阅读是什么？揭秘生成引文的隐秘机制|ai阅读|人工智能|学术|引文|引用率|百科全书|超级智能

随着生成式人工智能重塑数字格局，一个新的问题正在内容创作和发现的核心领域浮现：人工智能究竟在阅读什么？ Muck Rack 开展了一项开创性研究，题为《人工智能在阅读什么》（来自Generative Pulse），分析了来自主流人工智能系统的超过100 万条引文，其中包括 OpenAI 的 ChatGPT（4o 和 4o-mini）、谷歌的 Gemini（Flash 和 Pro）以及 Anthropic 的 Claude（Sonnet 和 Haiku），旨在揭示这些模型在生成响应时使用的链接背后隐藏的动态。

这些发现不仅具有启发性，而且对于新闻业、企业传播、搜索引擎优化或品牌战略领域的任何人来说都具有变革意义。

引用不仅仅是附加功能——它们会重塑人工智能行为

任何沉浸在人工智能世界的人都会明白，简单地启用或禁用引用功能就会改变答案本身。当引用关闭时，人工智能会更加依赖静态训练数据。但当引用打开时，模型会生成截然不同的输出，这直接受到它们所提取的实时数据源的影响。

关键示例：当被问及美国职棒大联盟（Major League Baseball）最差的球队时，一个禁用了引用功能的AI提到了1962年的大都会队。但启用引用功能后，它更新了答案，加入了2024年的芝加哥白袜队，该队以41胜121负的战绩创造了赛季纪录——并且明确引用了CBS体育的报道。

赚取媒体的主导地位

超过95% 的引用来源来自非付费媒体。其中包括：
27%新闻内容（例如路透社、美联社、金融时报）
18% 的政府/非政府组织网站
13%学术或研究来源
10%聚合器/百科全书平台，如 Wikipedia 或 Visual Capitalist

相比之下，付费或软文内容的引用量不到 5%，这清楚地表明人工智能模型系统性地对营销驱动的内容存在偏见。

近期偏差：为何新内容胜出

新鲜度至关重要——尤其对于 OpenAI 的模型而言。在新闻内容方面，ChatGPT 56% 的引用是在过去 12 个月内发布的，而Claude 的这一比例仅为36% 。这种倾向被称为“近因偏差”，指的是即使旧来源可能仍然准确或相关，人们仍然更倾向于使用较新、最近发布的来源。

在生成式人工智能的背景下，近因偏差意味着语言模型（尤其是像 ChatGPT 这样与实时数据相关的模型）更有可能引用和信任新发布的材料，尤其是在回答涉及时事、新兴技术或政策变化的查询时。对于诸如“门诊治疗的最新进展”或“近期录音创新”等时间敏感的提示，该模型会高度重视过去几个月发布的内容，认为这些内容包含更相关或更新的见解。

对于内容创作者和品牌策略师来说，这是一个至关重要的洞察：如果你的内容已经过时——哪怕只过时了一年——它出现在AI生成的答案中的可能性就会大大降低。保持内容新鲜不仅仅是为了提升SEO，更是在AI时代提升曝光度的关键。

不同的提示触发不同的来源

AI 模型不会随机引用来源——它们会根据问题的类型进行选择。不同的提示风格会导致引用不同类型的来源：