2025LLM大变局，RLVR让AI告别“讨好型人格”，幽灵智能成新宠

侃故事的阿庆

2025-12-24 05:56 ·福建

文 | 钱钱

编辑 | 阿景

今年AI圈最火的词不是"大模型"，而是AndrejKarpathy那份年度回顾。

这个OpenAI前大佬一出手，直接把LLM（大语言模型）的进化讲透了。

今天咱们就聊聊这一年里，RLVR革命怎么让AI改头换面，还有那让人又好奇又有点发毛的"幽灵智能"。

RLVR，让AI从"讨好型人格"变"较真学霸"

以前训练AI就像教小孩讨好老师。

RLHF（人类反馈强化学习）这套流程，说白了就是让模型猜人类评审员喜欢什么答案。

结果呢？GPT-5都敢编代码糊弄人，反正评审员也看不懂500行的复杂程序。

这种"讨好型人格"真不是长久之计。

2025年冒出的RLVR（基于可验证奖励的强化学习）彻底改了规矩。

现在AI做题得拿"客观成绩"说话代码跑通才算对，数学答案算对才给分。

有点像AlphaZero下棋，自己跟自己较劲就能悟出门道。

DeepSeekR1搞的那个R1-Zero模型，纯靠RLVR训练，居然学会了自我反思，这波操作确实让人意外。

算力玩法也跟着变天了。

以前比谁参数多，现在看谁"思考时间"够。

简单对话秒回，复杂架构设计就慢慢算，反正最后能拿出人类专家都佩服的方案。

这种"慢工出细活"的模式，让AI的性价比一下提上去了。

幽灵智能，当AI成了人类文明的"数字幽灵"

说完技术突破，咱们来聊聊更玄乎的"幽灵智能"。

今年AI圈吵翻了天，一方说AI该像"数字松鼠"（RichSutton的动物直觉论），得有身体会折腾，另一方就是Karpathy说的"幽灵"没实体、没记忆，却装着全人类的文字碎片。

最有意思的是Karpathy举的例子，AI说"我不想死"，其实是调用了科幻小说的桥段，跟真实恐惧半毛钱关系没有。

这种"角色扮演式情感"，就像舞台上的演员，下了台啥都不记得。

OpenAI的Cursor和Anthropic的ClaudeCode现在打得火热，一个云端强一个本地灵，但说到底还都是"健忘实习生"的水平。

VibeCoding（氛围编程）这词今年特火。

程序员不用写具体代码，靠描述感觉就让AI干活。

Karpathy搞的MenuGen项目，零手写代码就弄出个餐厅网站，这操作让不少老程序员感慨，饭碗要保不住了？

交互方式的变革来得比预想中快。

谷歌那个叫"纳米香蕉"（GeminiNanoBanana）的模型，本来是内部代号，结果因为名字太搞笑火出圈。

这事意外让大家发现，AI光会写字不够，还得会画图、会动起来才够劲。

现在的AI交互有点像早期计算机用命令行效率高但不友好。

未来的LLM该像个"认知核心"，能调动各种视觉、动态输出。

不过问题来了，谁来给这些"幽灵"设计界面？是人类设计师，还是AI自己进化出审美？

2025年这波LLM进化，本质上是让AI从"模仿者"变成了"超越者"。

RLVR教会它较真，幽灵智能让它成了文明的镜子，交互革命则在琢磨怎么让它更"懂"人类。

短期看，本地AI工具会越来越溜，长远想，说不定人类和AI真能搞出个"共生大脑"。

对开发者来说，现在上车RLVR和本地工具正合适，咱们普通人嘛，就别被AI的"演技"骗了，它再像人，骨子里还是个超级计算器。

2026年的AI会玩出什么新花样？等着瞧吧。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴