打开网易新闻 查看精彩图片

文 | 钱钱

编辑 | 阿景

今年AI圈最火的词不是"大模型",而是AndrejKarpathy那份年度回顾。

这个OpenAI前大佬一出手,直接把LLM(大语言模型)的进化讲透了。

打开网易新闻 查看精彩图片

今天咱们就聊聊这一年里,RLVR革命怎么让AI改头换面,还有那让人又好奇又有点发毛的"幽灵智能"。

RLVR,让AI从"讨好型人格"变"较真学霸"

以前训练AI就像教小孩讨好老师。

打开网易新闻 查看精彩图片

RLHF(人类反馈强化学习)这套流程,说白了就是让模型猜人类评审员喜欢什么答案。

结果呢?GPT-5都敢编代码糊弄人,反正评审员也看不懂500行的复杂程序。

这种"讨好型人格"真不是长久之计。

2025年冒出的RLVR(基于可验证奖励的强化学习)彻底改了规矩。

现在AI做题得拿"客观成绩"说话代码跑通才算对,数学答案算对才给分。

打开网易新闻 查看精彩图片

有点像AlphaZero下棋,自己跟自己较劲就能悟出门道。

DeepSeekR1搞的那个R1-Zero模型,纯靠RLVR训练,居然学会了自我反思,这波操作确实让人意外。

算力玩法也跟着变天了。

以前比谁参数多,现在看谁"思考时间"够。

简单对话秒回,复杂架构设计就慢慢算,反正最后能拿出人类专家都佩服的方案。

打开网易新闻 查看精彩图片

这种"慢工出细活"的模式,让AI的性价比一下提上去了。

幽灵智能,当AI成了人类文明的"数字幽灵"

说完技术突破,咱们来聊聊更玄乎的"幽灵智能"。

今年AI圈吵翻了天,一方说AI该像"数字松鼠"(RichSutton的动物直觉论),得有身体会折腾,另一方就是Karpathy说的"幽灵"没实体、没记忆,却装着全人类的文字碎片。

打开网易新闻 查看精彩图片

最有意思的是Karpathy举的例子,AI说"我不想死",其实是调用了科幻小说的桥段,跟真实恐惧半毛钱关系没有。

这种"角色扮演式情感",就像舞台上的演员,下了台啥都不记得。

OpenAI的Cursor和Anthropic的ClaudeCode现在打得火热,一个云端强一个本地灵,但说到底还都是"健忘实习生"的水平。

VibeCoding(氛围编程)这词今年特火。

打开网易新闻 查看精彩图片

程序员不用写具体代码,靠描述感觉就让AI干活。

Karpathy搞的MenuGen项目,零手写代码就弄出个餐厅网站,这操作让不少老程序员感慨,饭碗要保不住了?

交互方式的变革来得比预想中快。

谷歌那个叫"纳米香蕉"(GeminiNanoBanana)的模型,本来是内部代号,结果因为名字太搞笑火出圈。

打开网易新闻 查看精彩图片

这事意外让大家发现,AI光会写字不够,还得会画图、会动起来才够劲。

现在的AI交互有点像早期计算机用命令行效率高但不友好。

未来的LLM该像个"认知核心",能调动各种视觉、动态输出。

不过问题来了,谁来给这些"幽灵"设计界面?是人类设计师,还是AI自己进化出审美?

打开网易新闻 查看精彩图片

2025年这波LLM进化,本质上是让AI从"模仿者"变成了"超越者"。

RLVR教会它较真,幽灵智能让它成了文明的镜子,交互革命则在琢磨怎么让它更"懂"人类。

短期看,本地AI工具会越来越溜,长远想,说不定人类和AI真能搞出个"共生大脑"。

打开网易新闻 查看精彩图片

对开发者来说,现在上车RLVR和本地工具正合适,咱们普通人嘛,就别被AI的"演技"骗了,它再像人,骨子里还是个超级计算器。

2026年的AI会玩出什么新花样?等着瞧吧。