说句实在话,AI圈最近几年太热闹了!
模型越堆越大,公司越融越多,但真正能“造出ChatGPT”的人,其实没几个。
而John Schulman,就是那个亲手把ChatGPT从实验室带到你手机里的人。
如今他离开OpenAI、又离开Anthropic,转身创办Thinking Machines Lab,到底在下一盘什么棋?
咱们很多人以为,ChatGPT之所以聪明,是因为它用了上万亿参数、烧了几亿美元算力。
但John Schulman直接“泼冷水”:“就算回到2015年,只要有今天的认知,我们也能用GPT-2级别的模型做出类似ChatGPT的效果。”
这话听着玄乎,其实核心就一点:预训练只是打底,后训练才是点睛之笔。
过去行业迷信“大力出奇迹”,拼命堆数据、扩模型。
可Schulman团队早就发现,通过高质量的监督微调(SFT)和人类反馈强化学习(RLHF),一个中等规模模型完全可以表现出远超其参数量的“智能感”。
比如,用精心构造的对话数据微调GPT-2,它就能像聊天助手一样回应用户,而不是胡乱生成网页片段。
认知差,比算力差更致命。
现在回头看,OpenAI早期的成功,不是因为硬件多强,而是因为他们率先掌握了“如何让模型听话”的工程方法论。
而这一点,正是大多数后来者至今没摸透的。
2025年2月,Schulman正式加入由前OpenAI CTO米拉·穆拉蒂创立的Thinking Machines Lab,并出任首席科学家。
就在2026年初,这家低调的新创公司发布了首款产品——Tinker。
周叔查了官方资料,Tinker不是又一个大模型,而是一个专为大语言模型微调设计的高度可配置API平台。
它的目标很明确:把AI训练从“黑箱炼金术”变成“透明工程学”。
目前行业现状有多荒诞?开发者写一堆脚本,混杂各种数据,一按运行键,几十万美元就没了。
结果不好?没人知道是数据问题、损失函数问题,还是调度策略问题。
整个过程不可复现、不可调试、不可解释。
而Tinker要做的,就是引入“原语”(primitives)——就像编程里的基础指令一样,把训练流程拆解成可组合、可监控、可迭代的模块。
你可以精确控制每一批数据的分布、每一次梯度更新的逻辑,甚至能像调试代码一样回溯训练中的每一个决策点。
从另一个角度看,这其实是AI开发范式的迁移:从依赖天才研究员的直觉,转向依靠标准化工具链的工程效率。
正如Schulman所说:“今天我们缺的不是更大的模型,而是更聪明的训练方式。”
除了工具层面的革新,Schulman对技术趋势的判断也极具前瞻性。
他在多次访谈中强调:RLHF依赖人类标注,这条路快走到头了。
为什么?因为人类标注又贵又慢,而且认知天花板太低。
未来的突破,在于模型能自我评估、自我改进——就像AlphaZero不靠人类棋谱,自己下几百万盘棋就能超越所有人类。
下一代AI必须能在视觉、语言、动作等多模态原生空间里联合推理。
比如,看到一段视频,不仅能描述内容,还能理解物理规律、预测物体运动、甚至规划操作步骤。
而Thinking Machines Lab的Tinker平台,正是为这类复杂训练场景设计的。
它支持多阶段、多目标、多模态的联合微调,让研究者能快速实验“自进化”算法,而不被工程琐事拖垮。
说白了,未来的竞争不在模型大小,而在“训练智能”的深度。
John Schulman的转身,不只是一个人的职业选择,更是整个AI行业从“野蛮生长”迈向“精耕细作”的信号。
当算力红利见顶,真正的壁垒将回归到数据工程、训练机制与工具链效率。
对于创业者而言,与其追逐千亿参数的幻影,不如深耕垂直场景、打磨微调工艺。
因为AI的未来,属于会“调教”模型的人,而不只是会“堆”模型的人。
热门跟贴