前几天,Kimi的朋友神秘兮兮地说:卫老师,我们准备发最新的Kimi K2.5了,来测一测?
说实话,这个年底的确很热闹,各家都在整新东西,可惜我一直没抽出时间,直到今天他们上线了我才开始跑case。
下面咱们就不紧不慢来看一看这些有意思的case以及我个人的几点思考——
一
在实测之前,我们先来了解一下Kimi K2.5最基本的信息——
它采用原生的多模态架构设计,同时支持视觉与文本输入、思考与非思考模式、对话与Agent任务,通过约15T混合视觉和文本token进行的预训练。
来,先跑个分——
可以看到它在 Agent、代码、图像、视频及一系列通用智能任务上取得开源SOTA的表现。
具体而言,在包括HLE、BrowseComp和DeepSearchQA在内的多个极具挑战性的Agent评测中取得了最佳表现,部分指标超越了最前沿的闭源模型。
这些领先的Agentic的能力让它可以从容面对复杂任务,KIMIK2.5驱动的Agent集群,能同时调度多达100个Agent分身,并行处理1500个步骤。
在正式的实测之前,我们先来看月之暗面的CEO杨植麟自己的介绍视频——
二
视觉提升是这次的关键。
按官方的说话,Kimi K2.5是一个全能型的统一模型(Unified Model),实现了视觉与文本的统一:
它不再需要外挂插件来看图,而是天生具备视觉能力,理解图片和视频就像阅读文字一样自然。
废话少说,我们还是来一个我之前试过的谷歌DeepMind纪录片《The Thinking Game》里哈萨比斯结尾的国际象棋case。
我照例上传了前几天我和我女儿下的双马防御的照片——
可以看到,面对这张意大利开局盘面,K2.5没掉链子。
一眼认出这是双马防御的经典局面,直接给出了Ng5的答案:马跳g5猛攻f7弱点。
这属于弗里德里希攻击的起手式,选点很精准。
而且它把道理也讲得很明白:f7是黑方王前最软的格子,只有王在保护,后续还列出了Nxf7弃马后的连续步骤,说明它理解这个开局的套路,不是瞎蒙。
整个过程反应快,视觉识别很准确,没把棋子位置认错,对于国际象棋初学者,这种一眼看穿的能力够用了。
就这个case来说,Kimi K2.5的视觉识别和推理能力,看得懂、答得准。
我再给它一张我在宜家买的椅子,让它指导我怎么安装——
可以看到,K2.5把这张椅子零件图吃得挺准:一扫就认出是椅子套件,靠背、前后腿、支撑横梁、软坐垫、那包内六角螺丝,挨个儿点名。
安装指导也很实在,没拽术语,步骤按先腿后靠再装垫的常识顺序来,还特别叮嘱螺丝别拧死,留点余量好调。
总体而言很照顾过动手能力参差的用户,靠谱。
三
我决定给它稍微上点强度。
于是我随手在手机中找出了去年我看的汉斯·季默(Hans Zimmer)在北京音乐会的现场照片,我问他舞台上那个穿白色衣服的歌手是谁?
注意,这张照片是我的实拍,比较模糊,像素只有600x800,很难通过面部识别来确定到底是谁?
可以看到,面对这张演唱会现场图,K2.5没急着瞎猜,而是先动手搜了图片——这是聪明的第一步,看不清歌手正脸,与其蒙答案,不如先找线索。
很快,它通过图片搜索结果确认是Hans Zimmer Live,这时候模型没停着,脑子已经转起来了:
背景是《狮子王》的画面,穿白衣服的人在舞台中央演唱,大概率是唱《Circle of Life》的那位。
于是马上追了一轮搜索+思考。
第二轮结果指向了Lebo M,但模型还是没直接回答——
它又补了一轮验证,专门搜 Lebo M 的现场照片和身份,确认这位南非老兄确实是《狮子王》主题曲的原唱,而且确实常穿白色非洲服饰登台。
三轮思考与行动环环相扣,这就是K2.5思维与行动交织的能力(Interleaved Reasoning):
不是先想十分钟再一次性搜完,而是搜一点、看一点、想一下再决定下一步干什么。
这种边想边做的能力很接地气——
它知道什么时候该停手(确认是 Lebo M 就收了),也知道什么时候该继续(光靠图片搜不出来,得补文字搜索),不死脑筋硬猜,也不过度搜索浪费算力,分寸感刚好。
一句话——Interleaved Reasoning,好使。
四
咱们继续,这次Kimi K2.5的代码能力也得到了大幅提升。
Benchmark分数是一回事,实际表现又是一回事,我只相信实测,咱们先来一道经典的——鹈鹕骑自行车的SVG动画:
“make an animated SVG of a pelican riding a bicycle.”
玩过模型测评的都知道这题挺刁的——对功能和审美的要求都不低。
SVG要做好不简单,K2.5结果很靠谱,车轮、脚蹬的联动很流畅,背景云彩还做了视差滚动。
细看的话,鹈鹕握车把的姿态像那么回事,脚踏板带上下相位差,车座底下还藏着阴影跟着车身一颠一颠,细节控应该很喜欢。。
颜色也不糊弄,天空渐变、柏油路上的速度线全配齐了,当然,还是有点瑕疵的,比如速度线的方向貌似搞反了,但瑕不掩瑜。
作为一个三体迷,每次测试模型网页能力,我都会下达一个任务——
“做一个以《三体》为主题的网站。”
可以看到,Kimi K2.5 这个 case 表现挺稳的,我总共用三句话迭代了三次。
整个过程,K2.5整理解需求,输出设计文档、生成图片、写代码、部署,流程很顺。
从结果上看代码质量可以,TypeScript、React、Tailwind用得熟练,报错能自己修,交互细节考虑周到,加载动画、悬停效果都有。
事实上,生成的网页还可以直接修改,在预览界面圈选需要修改的地方,用大白话告诉Kimi怎么改,它就能精准调整。
我喜欢它的点在于,这个网站拿捏住了三体冷峻的风格。
深黑背景,不张扬但抓人,留白给得足,看着就安静、孤独,跟书里的气质对味。
人物图生成得挺准——叶文洁有那种历经沧桑的决绝,章北海一身军人硬气,都贴原著,不是那种网红脸。
Kimi产品层面也打磨得很好,最实在的是Kimi K2.5 Agent生成的网站能直接部署,流程一条龙走完。
用户拿到手就是个能打开的网址,不用自己折腾服务器、配环境,这个网站大家可以直接去玩——
(可直接复制访问https://sk2b45gfnxilo.beta-ok.kimi.link/)
对普通用户来说,这是实实在在的方便,很多其他产品到出代码那步就停了,Kimi能推到最后一公里,nice。
更有意思的是,你可以直接上传图片和视频,让K2.5 Agent照着图片里或视频里的样式来生成网站。
我找了一个交互不错的网站录屏给它(https://orbitaix.webflow.io),让K2.5把上面的三体网站转化成视频中的设计。
5分钟之后,风格复刻就完成了,大伙可以自行对比一下效果:
供K2.5参考的网站case
K2.5复刻后的三体网站
再来看一个更有意思一点的——
创建一个用手势识别切西瓜的网页小游戏。
可以看到,Kimi K2.5在这个小游戏开发任务上表现相当扎实。
从需求理解到最终交付,模型展现了完整的工程能力。
我总共提出了6轮修改——包括30秒倒计时调整、水果变大变多、特效炫酷——模型能准确理解并执行,没有遗漏或误解。
最终完成度还是很高的,反正我女儿玩了半个小时,下面是网址,大伙可以自己玩一玩——
https://zympv3awn3nay.beta-ok.kimi.link/
摄像头手势追踪流畅,五种水果爆炸效果不错,连击系统、倒计时、摄像头小窗口、分值提示等功能也都有,符合我最初的意图。
作为单次对话的多轮迭代开发,Kimi K2.5 展现了不错的需求跟随能力和代码组织水平,最终交付物直接可部署、可游玩,实用性强。
这是我复刻的网页版的Mac OS,里边的App都能用
五
Kimi K2.5推出了Agent Swarm,也就是“蜂群模式”,简单来说就是让一群AI分工协作,并行处理海量任务。
这个功能最厉害的地方在于它能分身,原本得一步步盯着的操作,它能拆解成多个子任务(最多高达1500个),对咱们普通用户来说,它就是个批量处理神器。
咱们看下面这个任务——
搞金融研究的都知道,查30家公司的季度数据是体力活——得翻公告、算汇率、对口径,还得盯着港股和A股披露差异。
可以看到,Kimi K2.5面对这个脏活累活展现出实打实的工程能力,先拉清单定框架,再自动切换美股、港股、A股三套数据库。
碰到滴滴退市这种边缘案例,也没瞎编,老老实实标OTC市值。
还有一点难得的是诚实——9家公司市值查不到就写未找到,15家员工数缺失也不硬凑,每个数字都带来源脚注。
全程无需人工盯盘,它自己调度搜索、API、Python计算,最后吐出带引用链的Excel。
这种批量作业不串行的路子感觉的确适合做脏活累活,多源数据自动对齐、拿不准就标红,确实让复杂的研究简单很多。
再看披露生成图片的case——
请用14个不同的艺术家风格,给金庸的14部小说设计14个封面,顺序按照“飞雪连天射白鹿,笑书神侠倚碧鸳”排列。
可以看到,Kimi K2.5的批量处理能力确实能打,14张图分两次就全搞定了。
第一次7张,第二次7张,衔接顺畅,画质稳定,没有前面精细后面应付的情况。
这种愿意接活的吞吐量,对实际工作很友好,做系列设计、批量配图时能省下大量反复调试的麻烦。
整体看,多任务并行这块Kimi K2.5有两把刷子。
六
作为行业的观察者,我并不擅长无死角地测试模型的每一项能力。
我更愿意结合行业演进趋势,从这些有限的case看一看新模型迭代和突破背后的逻辑。
以下是我测完Kimi K2.5之后的4点思考——
1.KimiK2.5 的这次更新有一种朴素的实用主义取向
我的直观感觉,Kimi的这次更新更接地气了,换句话说Kimi K2.5这东西变得越来越像个老实人。
别笑,在AI这个圈子里,老实人是个稀缺物种。
原生视觉、Visual Coding、Agent Swarm、Office Agent,还有开源的Kimi Code,这些东西都指向一个目标——让你能真真切切地把活儿干完。
给它一张设计稿,撸出一个能用的网页来,不满意,圈选就能修改还能一键部署上线,是真干活。
Agent Swarm的批量处理也是把模型能力转化成刚需场景的又一个出手,实打实地干脏活累活。
Office Agent也是这个思路,PPT、Word、Excel都给你优化到位,交付物得有专业审美和结构,不用操心格式问题、排版问题,直接拿来就能用。
这年头,用户是识货的,虚头巴脑的东西没有,能不能真正干货,一上手就知道,这种朴素的实用主义取向对行业是正向风向标。
我想,这也是Kimi敢在国内在C端推出付费套餐的底气。
2.Kimi这次干了很多最后一公里的活。
什么叫最后一公里?
其实就是直接能用,扔给你一张图纸让你自己去盖房不是最后一公里,直接交给一把钥匙才是。
Kimi这次做了大量的工作,算是把用户伺候到位了。
批量搜索、批量下载论文、批量生图,这些并不性感的工作才是生产力痛点。
对于坐在办公室里苦逼写报告的打工人来说,能不能瞬间帮他把100份财报扒下来分析好、PPT和Excel能不能整明白才是关键。
这说明Kimi产品经理是真在办公室里被虐过的,切实地知道打工人的痛。
的确,过去一年AI领域最重要的突破是长时程任务能力(long-horizon capabilities)。
METR的研究显示,GPT-5、GPT-5.1 Codex Max和Claude Opus 4.5能完成需要人类数小时的任务,而2024年的最佳模型只能完成30分钟以内的工作,
坦率地讲,KIMI这次的上下文长度离Gemini这类顶尖模型还是存在差距的。
但它聪明的地方在于它用Agent Swarm的批量处理很好地解决了很多日常复杂工作的痛点。
这其实也是帮用户走完最后一公里的努力。
3.视觉是乘法,而不是直观意义上的加法
KIMI K2.5将视觉能力从外挂插件升级为原生能力,这是从感知到理解的进步,是乘法。
Claude Sonnet 4.5在2025年9月的更新中强调“Vision for computer use”、Gemini 3 Pro强调“multimodal input with real-time reasoning”,行业共识是:原生多模态才是真正的AI Native。
在过去,很多模型处理图片是先用OCR把字提出来,再丢给大模型,这导致图表中的趋势、颜色、空间关系全部丢失。
Kimi2.5的原生多模态保证了不同模态之间的对齐更精准,减少了信息在不同神经网络模块传递时的翻译损耗。
而这会解锁极多的能力,官方的case中有对森林图 (Forest Plots)等专业图表的深度解析,说明Kimi K2.5经过了大量专业垂直领域数据的Post-training。
它不仅能读数,还能理解更复杂的统计学意义(如P值、置信区间)。
这对于金融、科研等依赖图表数据的行业是非常直接的利好。
4.高带宽的Context会成为未来模型能力的重要维度
在Kimi官方的case中,有一个让我印象很深刻——
将演示视频转化成编程项目(上传一段100MB以内的操作视频,Kimi看懂意图,复刻出可交互网页)。
这超越了截图生成代码,视频包含着时间维度的逻辑、交互的动态反馈、甚至是微妙的动效。
某种意义上,视频等更多元的模态或许成为未来AI开发的通用语言,K2.5验证了演示即编程的可行性。
如果AI能看懂视频并生成代码,这极大地压缩了软件供应链。
以前是“需求->文档->设计->代码->测试”,现在变成了“视频演示->成品”。
Kimi2.5在这里展现了很强的视觉理解能力,而更重要的是对动态逻辑的捕捉能力,我把这种能力粗浅地理解为最小规模的在线学习。
我坚定地相信,未来Context的带宽会比现在大很多倍,视频也仅仅只是其中的一种。
事实上,作为一个模型的人脑,它的Context带宽其实也是非常高的。
如何在高带宽的Context下提升效率,是未来每个模型要面临的实际挑战。
结语
以前我们总觉得,搞懂复杂的科研图表或者是批量处理上百份文件,是属于专业人士的特权,但 Kimi K2.5把这道门槛踏平了。
K2.5就像个眼里有活儿、心里有数的老伙计——聪明、靠谱,我们常说AI要快,但K2.5却学会了慢下来思考。
好的模型,是润物细无声滴,Kimi K2.5,值得一试。
——End——
作者简介:卫夕,公众号“卫夕指北”出品人,科技专栏作者,专写长文,专注剖析AI、广告、互联网的底层逻辑;不关注这个账号,你都不知道你会错过神马!
热门跟贴