晚点独家丨月之暗面探索 o1，跟字节抢来华为刘征瀛|kimi|math|刘征瀛|推理|月之暗面|知名企业|算法

11 月发布 k0-math 时，杨植麟提了 23 次强化学习，17 次推理，7 次 o1。

文丨王与桐
编辑丨程曼祺

本月初经历仲裁风波后，月之暗面在 11 月 16 日发布新的数学模型 k0-math，当时月之暗面创始人杨植麟反复提到 “o1”：他将 k0-math 的测评评分与 o1 比较，称其思路与 o1 类似——都采用了强化学习和思维链技术。

o1 是 OpenAI 在今年 9 月发布的新模型，它有更强推理和数学能力。杨植麟曾在 o1 发布后不久的一场演讲中说，o1 的出现意味着大模型的范式转换：从预测下一个 token 的规模扩展（ Next-Token Prediction Scaling）到强化学习的规模扩展（Reinforcement Learning Scaling)。

我们独家获悉，在探索新技术变化的同时，月之暗面近期引入一位新技术负责人——华为诺亚方舟实验室原 AI 基础理论团队研究员，刘征瀛。他正在月之暗面带队探索 o1 方向。

据了解，刘征瀛也曾被字节跳动高层邀请加入字节大模型团队，但他选择了加入创业公司。

刘征瀛本科毕业于北京大学元培学院，获得物理和数学双学位，后在巴黎萨克雷大学（Université Paris-Saclay）获得博士学位，主攻 AutoML（Automated Machine Learning，自动化深度学习）方向。

AI for Math 是刘征瀛深入研究的方向之一，除发表数篇相关论文外，他在 2023 年的几次公开演讲都以 AI for Math 为主题。

据了解，k0-math 数学模型早在半年前已有雏形，当时内部代号为 “胖胖”。在今年初的月之暗面全员会上，杨植麟就将 “多阶段推理” 放到了年度规划里，k0-math 代表着月之暗面在多阶段推理能力上的努力。

与 o1 相关的成果还有，今年 10 月初，月之暗面推出了 Kimi 探索版，可实现多步思考和更深度地检索。

从成立至今，月之暗面长期被认为是中国大模型创业公司中，技术人才密度颇高的一家。月之暗面现在仍只有 100 多人，但汇集了杨植麟和周昕宇两位技术背景创始人，杨植麟发表过两篇大语言模型领域重要论文 [1]，周昕宇在旷视期间与现在加入另一家大模型独角兽阶跃星辰的张祥雨，一起发表过单篇引用超 9000 次的卷积神经网络论文 [2]。

今年至今，月之暗面又陆续吸纳了曾在 Transformer 架构方向发表多篇论文的苏剑林，微软亚研院原多模态专家谭旭等人，如今刘征瀛也加入了月之暗面。

我们获悉，这段时间，月之暗面招聘的重点方向仍是算法人才。但另一方面，月之暗面对外释放模型和算法进展并不多。在 k0-math 之前，他们上一次发布模型动态是 2023 年底发布 moonshot-v1 系列。

在此前的采访中，杨植麟曾提到想要招募各个领域的 genius（天才）。杨植麟对天才的定义是：“天才不一定是先天的。也可以通过训练，重要的是有没有意识创新。”

创新依然重要，人才依然重要，算法和技术也依然重要，但随着大公司的投入，模型能力之外，产品相关的综合能力也成为现阶段的重要竞争因素：这包括设计优化、投放效率、留存转化和商业化策略等，和支持以上连环动作的钱与资源。后者是字节跳动等大公司积累多年的强项。

题图来源：Boys in the Boat

文中提到的论文分别为：

[1]XLNet: Generalized Autoregressive Pretraining for Language Understanding

Transformer-xl: Attentive language models beyond a fixed-length context

[2]Shufflenet: An extremely efficient convolutional neural network for mobile devices

晚点独家丨月之暗面探索 o1，跟字节抢来华为刘征瀛

热搜

热门跟贴

热搜

热门跟贴

相关推荐

不止华为，又一个捅破天国产自研，下半年就来

鬼哥阿亮神州联合上演最戏剧性一副牌！主打一个反转！

安卓闭源了！中国手机厂商至暗时刻已至？13年前，任正非就已看破

等了好久终于和光头大爷杀一盘，结果被我背后一刀，海底捞月绝杀

退一首只想自摸，没想到还能海底杠开

这么烂的牌，居然都能自摸。海底捞月

ChatGPT仙人指路开局，竟被文心一言天地炮杀崩？

3秒写出万字算法，当DeepSeek玩起手游抽卡后，网友：真的懂行！

青年科学家AI整活，青藏高原和太阳耀斑都没放过

天空硬糖消

偷个情报还能在现场吃瓜，玩的就是刺激

人类面具，榜一大哥被坑哭了！

步步软件招，战神附体，杀得对手怀疑人生

女主播和榜一大哥见面，大哥就是大哥，看到的都是光亮的一面！

DeepSeek分析：那些你不知道的各行业黑幕，“遮羞布”都被撕破了

三招干掉BBA，2024年最凶残的男人

小鹏绝地翻盘，头号功臣是她！

谈台积电和关税，台3名嘴大骂绿蛙任美宰割，台湾人要过苦日子了

小小冰淇淋机，为何惊动美国总统？ 2017年，3个佛罗里达人因为麦当劳冰淇淋殴打店员；在2024年的

老外看甲亢哥深圳行买华为手机！国外网友：华为手机真这么香吗