大模型到底怎么数清楚字母?

快,五秒钟内回答:strawberry(草莓)这个单词里有多少个字母 r?

太简单了,你扫一眼就知道,有 3 个。确实。

但如果告诉你,这是一道让包括 GPT-4 在内无数知名大模型「竞折腰」的问题,你相信吗?

打开网易新闻 查看精彩图片

之所以会如此,是因为传统大模型的响应本质上是一种「模式匹配」:它只是给出根据训练所学,在概率上符合上下文的回答,因此可能给出一些语法上正确,但逻辑上有明显问题的答复。

那么,正确的做题姿势应该是什么样呢?

打开网易新闻 查看精彩图片

你可能觉得这是把「简单」的问题给复杂化了,但实际上这类似于在大脑中思考问题的过程,只是我们平时不会把这些「内心独白」写出来而已。总结起来,这段回答大致分为分析拆解——执行任务——反思检查——总结输出几个阶段。而正是凭借着这种细致、审慎的思考,大模型才能完成这个看似简单的任务——数清楚 strawberry 里有多少个字母 r

上图中的这个模型是 Kimi 本周宣布全新推出的视觉思考模型 k1。下面,我们就从原理出发,讲讲 k1 是怎样通过学会推理变得更聪明的。

从规模法则走向强化学习

在近几年 AI 行业飞速发展的背后,始终有一条称为「规模法则」(scaling law)的经验原则作为支撑。根据规模法则,随着模型规模、数据量和算力的不断增加,模型的性能会持续提升——用通俗的话说,就是「大力出奇迹」。

应当肯定,在这条被比作 AI 行业「摩尔定律」的原则指导下,大模型的能力的确取得了长足的进步:响应越来越流畅、高效,能一次处理内容也越来越多(长上下文),并且从文本扩展到多媒体(多模态),一次次刷新着人们对 AI 能力的认知。

然而,人们近来越发意识到,基于规模法则的发展正在遇到瓶颈。 这是由大模型广泛采用的「预训练」技术原理决定的。在预训练中,模型无监督地吸收海量训练数据,以此来掌握语言结构、模式规律和时事常识等基础能力。因此,一旦训练数据日渐稀缺,预训练模式必然面临挑战。事实上,正如本月的《自然》杂志刊文指出,「AI 进化即将用尽数据」:一方面,内容方出于法律、经济方面的各种考虑,不断收紧对自家平台数据的访问权限;另一方面, 可用于训练的的互联网内容增长速度比想象中要慢。

可见,单纯依赖规模扩张的道路,在当下已经难以支撑大模型的持续进步。

在国产大模型中,Kimi 一直在性能、创新速度和易用性方面有很好的口碑。例如,今年早些时候,少数派就 报道 过 Kimi 在国产模型中率先支持 200 万字的超长上下文,大大扩充了使用场景。而在本周推出的视觉思考模型 k1,就可以看作是 Kimi 应对上述挑战,从「强化学习」和「推理能力」两个角度打磨的成果。

打开网易新闻 查看精彩图片

如何理解 k1 的这两项重要特征呢?如果说预训练是打基础,强化学习就是在实践中精益求精的过程:在这个阶段,模型尝试执行各种特定任务,并根据表现获得打分,在这种奖惩机制的激励下不断改进表现。据 Kimi 官方表示,k1 的训练分为两个阶段:首先通过预训练得到基础模型,随后在此基础上开展强化学习后训练,并且特别优化了数据质量和学习效率,并且实现了强化学习的「规模化」。

而 k1 的推理能力则体现在面对复杂问题时,不是一步给出答案,而是分析问题、探索可能的解决方案,并验证和反思,一步步推导出最终答案。 例如,在处理复杂计算题时,模型不只是给出最后数字,而是依次写下解题过程的每一步公式,并不断检查中间结果,同时思考其他可行路径。显然,这有助于获得更精确、全面的结果。

根据官方公布的信息,在包含数学、物理、化学等学科的多个基准测试中,初代 k1 模型的表现已经超越了目前全球的标杆模型 OpenAI o1、GPT-4o 以及 Claude 3.5 Sonnet。

打开网易新闻 查看精彩图片

这无是非常令人期待的。那么,Kimi k1 模型在这些能力加成下的实际表现如何?在「做题」之外,新的推理和视觉能力对日常场景下的使用体验又能带来哪些提升?下面,让我们通过一系列实际应用场景,测试 Kimi k1 的各项能力,一起来验证。

走近 Kimi k1 的推理世界

k1 模型发布即上线,目前可以完全免费使用,只要在 Kimi 主界面选择「Kimi 视觉思考版」即可体验。

由于 Kimi 特别强调了 k1 的几何能力,我们下面就先用一道来自今年阿里巴巴全球数学竞赛的预选赛试题来「摸摸底」。

打开网易新闻 查看精彩图片

可以看到,k1 首先对题目条件进行了正确的解读,并且提炼出了解题的关键:「如果一个同学站在位置 P,他们看不到 E 和 F,这意味着他们的视线被其他塔挡住了」——这正是官方答案里的开头。基于这个理解,k1 进一步将问题拆解并推导出中间结论「必须有塔位于 P 和 E 之间,以及 P 和 F 之间」,展示了模型较强的几何直觉,也为其解题打下了好的基础。在解题过程中,模型尝试了多种思路,并且能及时调整自己的假设和方向,最终顺利给出了这道题的正确答案。

在这里,我们也可以看出 k1 相对于同样以推理为主打功能的 OpenAI o1 的优势:它几乎是立刻开始快速响应,并且完整地展示了思维过程,而 o1 则需要等待比较久的思维延迟,并且刻意将完整的思维链隐藏起来(这在发布的时候引起了不小争议)。相比之下,k1 的透明度是值得赞赏的,在使用体验上也更友好。

当然,做竞赛题并不是日常需求,对于学生朋友来说,更常见的用例可能还是拍摄练习题,寻求解答。在这种场合,图片的画质和「纯净度」往往是不可控的,因此除了解题能力,模型应对干扰的能力也很重要。

例如,我们将下面这样一张包含多道大题,并且有阴影遮挡、无关纸张干扰和手写笔迹的图片上传给 k1,并且要求回答某一道具体的小题。

打开网易新闻 查看精彩图片

可以看到,k1 成功应对了图片中的各种干扰,正确提取了题干信息,并做出了正确的解答。此外,如果你经历过那种「答案都看不懂」的困惑时刻,或许还能感受到这种详尽解答风格的额外好处:它像一个特别有耐心的老师那样,不厌其烦地演示每一个具体步骤,还有步步检查的「好习惯」,对于彻底搞懂问题、养成良好的解题习惯都是有益的。

实际上,k1 的「做题能力」并不止于数理化。例如,文科中的地理就涉及许多需要「读图」的问题,而事实证明 k1 的视觉和推理能力也能派上用场。 还是以一组高考真题为例,k1 非常准确地解读了图中各类曲线,给出了正确答案:

打开网易新闻 查看精彩图片

解题场景展现了 k1 在教育领域和处理「标准化问题」上的深厚潜力,那么,在实际的工作场景中,k1 的表现又如何呢?毕竟对于很多上班族来说,「能帮我干活」的 AI 才是真正的刚需。

我们首先选择了一个会议笔记整理的场景来测试。如今很多人还保有手写笔记的习惯,认为手写的过程更有助于理清思路,也比打字更加灵活方便。这固然是很好的思路,但后续从笔迹整理成电子文档时就不可避免地要费些功夫。虽然现在的 OCR 已经比较成熟,但那也只能机械地将文字提取出来,而不能辨别隐藏在笔记布局中的层次和逻辑。

为此,我们交给 k1 一张较为凌乱的手写会议笔记图片,要求将其整理成条理清晰的纪要,并根据纪要内容规划下一步的任务清单。

打开网易新闻 查看精彩图片

k1 的答复如下:

打开网易新闻 查看精彩图片

可以看到,它不仅正确识别了笔迹,而且考虑了高亮底色、箭头批注等格式信息,给出了切题的答复。

在另一个景中,我们模拟了法律合同审阅。我们将一份投资协议修订过程中投资方反馈的修订内容截图上传给 Kimi k1,要求它从被投公司的立场,对这些约定条款的合理性和潜在风险做出判断,并提出进一步修订建议。

打开网易新闻 查看精彩图片

从结果来看,k1 首先正确识别了图片中的修改标识,将新增和删除的部分准确提取出来。在此基础上,Kimi k1 逐条分析了合同条款修订的合理性,,并理解了用户作为「被投公司」这一特定立场。在发现风险的基础上,k1 给出的建议是也比较具体且具备可执行性的,例如允许特定情况下优先认购权的例外等。

这当然不能直接替代律师的工作,但也足以提供一些便利和思路启发,体现出强大的实用价值。

最后,我们再来看看 k1 在一些趣味场景的表现,或许能给你探索更多玩法带来一些启发。

首先看看 k1 辨识食物和营养的能力。我们挑了几种麦当劳「500 大卡套餐」的宣传图,要求 k1 猜测其中的热量。结果是非常准确的,和官方数字只差了几十卡路里,可以算在误差范围之内。

打开网易新闻 查看精彩图片

我们再来试试 k1 的「侦探」能力:上传了一张颇有年代感的彩色照片,要求推理拍摄年代和所用技术。这是一个有挑战性的任务,需要结合图片细节以及影像本身的技术特点综合分析。

打开网易新闻 查看精彩图片

对此,k1 展示了精彩的推理过程。它先从图片的「颗粒感」这个技术细节出发,再结合背景和人物着装给出了拍摄的大致年代推断——二十世纪早期,初步筛选了在那个时代常见的色彩技术。在依次排除「手工上色」等不符合推测之后,重点指出了 autochrome(天然彩色相片)是与历史背景、图像特征最为符合的一项技术。的确,这是摄影师 Albert Kahn 在 1913 年初拍摄于北非的 autochome 照片。

结语

古话说,「学而不思则罔」,这强调了学习和思考结合的重要性。Kimi k1 视觉推理模型的发布,可以说正体现了这样一种智慧:不再单纯地依赖基础模型,而是同时向深度推理迈进。

从上文的各项测试中可以看到,k1 的这一探索方向体现出了很强的潜力,不仅具有很强的推理能力,而且能完整、详细地展示推理步骤,将大模型的「黑箱」变为清晰的思维过程,让你「知其然,更知其所以然」。无论是解答复杂的几何题,还是整理会议笔记,甚至是分析老照片,k1 都游刃有余,展现出强大的通用性和实用性。这背后,正是强化学习与推理能力的强强联合。

正如业内不少观点所预见的,「GPT 时代」正向「推理时代」演进。展望未来,我们期待并相信 Kimi 能继续突破 AI 技术的边界,积极探索大模型发展的新方向,也鼓励你能够亲身体验这款具有强大性能的工具,探索「学」与「思」结合的乐趣。不如,现在就打开 Kimi,认准戴眼镜的视觉思考版试试?

打开网易新闻 查看精彩图片