“从我们开始做到现在整个行业发生了很多的变化,但是我觉得很多时候很重要的是在变化的过程中去找到一些不变的东西,一直坚持下去。”Kimi母公司月之暗面的创始人杨植麟在Kimi一周年沟通会上表示。
在逾一个小时的分享中,杨植麟向外界分享了Kimi的最新技术进展、月活用户情况,以及他本人对于Kimi未来发展的思考。
在他看来,Kimi在过去一年主动做了业务减法,其聚焦的,是上限高且与AGI使命相关的事务,控制业务数量和团队规模,以确保核心创新能力。
而“加法”,映射在客户留存方面。纵然Kimi智能助手在全平台的月度活跃用户已超过3600万,但杨植麟认为,这还不够。他表示,当前Kimi最核心的任务便是提升留存,而它与技术成熟度正相关。
杨植麟谈强化学习
他首先分享了对于AI发展的看法,并强调了“强化学习”的重要性。
杨植麟认为,AI发展范式将更多关注基于强化学习的方法,通过强化学习让AI具备思考能力,解决仅靠Next-Tokenprediction的局限性,如无法探索更难任务、依赖静态数据集等问题。强化学习可使AI在产生想法后,基于反馈迭代学习更强的思考能力,未来AI发展仍将持续Scale,但方式将更多依赖强化学习,并在过程中生成更多数据。
“什么样的场景是最适合让AI锻炼思考的能力,我们认为是数学场景。”他表示,这是因为数学是宇宙的语言,解决数学问题是不断思考和试错的过程,且无需与外界交互,自成体系。
基于此,Kimi披露了最新技术进展与成果,其中包括新一代数学推理模型——k0-math模型。这是Kimi推出的首款推理能力强化模型。
据杨植麟介绍,在多项基准能力测试中,k0-math的数学能力可对标OpenAIo1系列可公开使用的两个模型水平,在中/高考、考研及经典math数据集上得分高于O1preview和O1mini等模型。但在更难竞赛题上与O1系列仍有差距。在两个难度更大的竞赛级别的数学题库OMNI-MATH和AIME基准测试中,k0-math表现分别达到了o1-mini最高成绩的90%和83%。
不过,他也谈道,当前k0-math模型仍有提升空间。
需要注意的是,k0-math模型虽然擅长解答大部分很有难度的数学题,但是当前版本还无法解答LaTeX格式难以描述的几何图形类问题。此外,它还有一些局限性需要突破,包括对于简单的数学问题,例如1+1=?k0-math模型可能会过度思考,对于高考难题和IMO题目依然有一定概率做错、猜答案。
如何避免模型过度思考?杨植麟认为,需更好训练奖励模型和设置奖励机制,以解决数据筛选和避免学习错误内容的问题,如采用rorshaking方法等。
推理泛化与搜索更新
新的强化学习技术范式不仅带来推理能力提升,也将会泛化到更多日常任务上。
今年10月中旬,Kimi探索版上线,将推理能力运用到AI搜索任务上。据悉,Kimi探索版的搜索量是普通版的10倍,一次搜索即可精读超过500个页面。
“最近,Kimi探索版运用强化学习技术创新搜索体验,在三大推理能力上实现突破:意图增强、信源分析和链式思考。”杨植麟提到。
所谓意图增强,是指Kimi探索版可以将抽象的问题和模糊的概念具体化,拓展用户的真实搜索意图。信源分析方面,Kimi探索版会从大量的搜索来源结果中,分析筛选出更具权威性和可靠性的信源,并且在答案中提供溯源链接,可一键定位信源具体出处,精确到段落级别,让每条信息都有据可查。至于链式思考,Kimi探索版可以更好地基于思维链推理能力处理产品、公司、行业等研究问题。
最新数据显示,2024年10月Kimi智能助手在PC网页、手机APP、小程序等全平台的月度活跃用户已超过3600万。
据杨植麟介绍,接下来,k0-math数学模型和更强大的Kimi探索版,将会分批陆续上线网页版及其APP,帮助用户解决更有挑战的数学和搜索调研类任务。
“除了技术的不断变革,通往AGI的过程也是Kimi与用户通过产品互动共创的过程。”杨植麟表示,“实际上,我们已经把产品当成一个强化学习的环境,模型在这个环境里跟用户交互,让技术、产品和用户体验都能持续变得更好,为用户创造更大的价值。”
据悉,Kimi还计划将推理泛化到更多学科和任务里,如解决物理、化学、生物医学等学科难题以及证明未被证明的定理等。
热门跟贴