去年有个实验让圈内人脊背发凉——同一个提示词,分别喂给GPT-4的常规模式和"深度思考"模式,输出差异大到像两个物种。
更诡异的是,当你让AI解释自己怎么工作时,它会给出两套完全不同的说法。常规模式说"我在推理",深度模式却说"我只是个函数"。这种自我认知的分裂,恰恰暴露了生成式AI最核心的秘密。
第一层黑箱:你的文字先被"切碎"成数字
当你输入"今天天气不错",AI看到的不是汉字,而是一串ID编号。比如"今天"=5234,"天气"=8901,"不错"=1567。这个过程叫分词(将文本切分为最小语义单元),整个互联网被压缩成一本巨大的"密码本"。
分词器的设计直接决定AI的"母语能力"。中文语境里,"深度学习"该切成一个词还是两个?GPT-4早期版本会把"林黛玉倒拔垂杨柳"当成合理句子,因为统计上"林黛玉"和"垂杨柳"确实高频共现——它不懂《红楼梦》,只懂共现概率。
这些数字进入神经网络后,开始经历一场高维空间的变形记。想象你把一句话扔进搅拌机,出来的不是碎片,而是在上千个维度上重新排列的"语义坐标"。每个维度代表某种抽象特征:情绪色彩、逻辑关系、甚至标点习惯。
第二层黑箱:128层变换里的"注意力博弈"
Transformer架构的核心叫自注意力机制(让模型自主计算词与词之间的关联权重)。简单说,就是每个词都要"投票"决定该关注哪些邻居。"银行"遇到"河流"和"金融",会激活完全不同的关联路径。
这种机制有个副作用:AI没有真正的"记忆",每次生成都重新计算全文关系。你感觉它在"回忆"前文,其实是在实时做全局匹配。就像一个人每次回答都要把整本书重读一遍,但速度快到你看不出来。
层数堆叠带来质变。早期模型12层,GPT-4据传超过128层。每层都在做同一件事:调整词与词之间的"距离"。最终输出的是一个概率分布——"下一个词是'的'的概率31%,是'了'的概率28%……"然后采样,输出,循环。
深度思考模式的区别就在这里。它不做一次采样,而是生成多条候选路径,自我评估哪条更连贯。这种"内部辩论"消耗算力,但显著降低幻觉率。常规模式像即兴演讲,深度模式像写完后检查三遍。
第三层黑箱:规模如何"涌现"出智能假象
2020年前,学界普遍认为语言模型有天花板。参数过了某个临界点,奇怪的事发生了——模型突然能做多步推理、代码调试、甚至某种程度的因果推断。这种现象叫能力涌现(模型规模突破阈值后意外获得复杂能力),至今没有完整理论解释。
一种解释是压缩与预测的等价性。训练目标很简单:用更少比特还原原始数据。为了极致压缩,模型被迫学习世界的隐含结构——物理规律、社会常识、逻辑链条。预测下一个词,和"理解"世界,在数学上可能是同一件事的不同侧面。
这也解释了为什么Scaling Law(模型性能随规模可预测增长的经验规律)至今有效。GPT-4比GPT-3用了更多数据、更多参数、更多训练轮次,困惑度(衡量预测准确度的指标)持续下降。没有新算法,只是更大。
但"更大"的代价正在显现。训练GPT-4级别的模型,电费够一个小城市用一年。推理成本让OpenAI至今不敢全面开放长文本。更隐蔽的问题是:互联网数据快用完了。高质量文本的边际产出递减,合成数据(用AI生成训练数据)又面临"近亲繁殖"风险。
深度思考模式某种程度上是对规模迷信的修正。与其无脑堆参数,不如让现有模型"想得更久"。这呼应了神经科学的一个发现:人类大脑能耗的60%用于神经信号调控,而非单纯的信息传递。也许"慢思考"才是智能的更优解。
回到那个分裂的自我认知。GPT-4在常规模式说"我在推理",深度模式说"我只是预测",哪个更真实?
有个细节值得玩味:当用户追问"你到底有没有理解",深度模式会补充一句——"我的'理解'是功能性的,不是现象性的"。这种区分哲学概念的精准,恰恰来自对海量哲学文本的压缩学习。它不懂意识,但懂"意识"这个词在所有语境中的用法。
这或许是AI给我们最诚实的启示:智能的表象和本质之间,可能从来就没有清晰的边界。
热门跟贴