船长纠结了一下午,要不要写Kimi K2.5。。。
1月27日,也就是昨天,月之暗面正式发布并开源了最新的大模型Kimi K2.5。
官方技术报告的第一句话,就是自信满满的:
The most powerful open-source model to date.(迄今为止最强大的开源模型。)
究竟有多强大呢?
用数据说话。
比如,全网都在热转的这张,有关Kimi K2.5的benchmark的图。
如上图所示,Kimi K2.5在包括HLE、BrowseComp和DeepSearchQA等极具挑战性的Agent评测中都拿到了SOTA(当前表现最有的模型)。尤其是在HLE(人类最后考试)上,Kimi K2.5拿到了50.2%。
而在编程能力方面,Kimi K2.5也不逊色。在SWE-bench Verified上拿到了76.8%,虽说不是最顶的,但也几乎逼近了闭源的GPT和Gemini。至少这个表现,是能够被邀请上桌,和大家一起掰掰手腕子的了。
从数据上来看非常牛X,但光纸上谈兵,肯定是不行的。(狗头.jpg)
所以,3!2!1!上体验!!!!!!!!!
PS:本文未被Kimi充值,大家可放心食用。
要说看完Kimi K2.5的介绍视频,满心满眼都是过年要放12天假的船长,就记住了两个最核心的点:
一个是视觉编程(Visual Coding),另一个是Agent 集群。
图片、视频+Coding。Kimi,你是真敢想啊。
这是什么意思呢?
打个比方,咱们平时看到某某网站做得特别好,是不是会立马下意识地产生:
我能不能也做一个同款的想法?
但是吧,没点金刚钻,你还真干不了的这前端的活。(特别是之前的手搓时代。)
诶,Kimi K2.5,来了。
你扔给它一张网站截图或者是一段录屏视频,它能自动给你复刻一个同款网站。
PS:如果你喂的是视频的话,效果更佳。因为你会发现,它不仅能看懂静态的UI布局,还能理解动态的交互逻辑,比如滚动的触发特效和卡片翻转动画等……
越听越有意思,船长立马给它扔了张B站截图。
“Kimi,我就要这个。”
来看看效果:
网址放在这儿了:
https://34fruw3kfgr6e.ok.kimi.link/
你憋说,你憋说,效果真不错。
只见,编辑部听取“哇”声一片。
除了这视频内容简介,又给我“胡言乱语”了以外:
但最重要的是,全程都是它在干活,最后直接一键部署即可搞定。
But,你要说在这个过程中,它有没有一些小问题呢???
有的。
从使用体验上来讲,它不是100%顺畅,就像在WC一待就是一小时的便秘中年人。
先帝创业未半,而中道崩殂。说人话:刚把图发过去,它就提醒了我三次“打钱”!
“和Kimi聊天的人太多啦,订阅会员可进入独立的优先队列。”
熟悉的配方,熟悉的味道。
让我想起了Kimi最最最开始爆火的时候,也出现了类似的情况:
是的,或许这次也是下午想要体验的人太多了,Kimi崩了会儿。
只不过,如果你是尊贵的VIP的话,这回可以走VIP专属通道。
三种会员内容的收费标准如下:
Andante 包月为49元/月。
Moderato 包月为99元/月。
Allegretto 包月为199元/月。
咱们也可以理解,做大模型本来就烧钱,为爱发电根本不现实。
大家也逐渐被各种VIP培养出了付费意识,就是这个定价吧,你怎么看呢?
OK,Kimi K2.5被部分人吐槽的另一个点,还有速度有点慢了。
一等就是一个小时打底。
@Lena用Kimi K2.5做了个算命小网站,满打满算跑了一个半小时。
网址在此:
https://onwlpil5r3hxs.ok.kimi.link/
其实这个时间问题,见仁见智。
我觉得还行,挺快的了。
如果你是个急性子,我劝你还是千万别着急。
(也有可能上班就是“度日如年”。)
除了让Kimi K2.5生成我们想要的网站,我们还玩了玩,Kimi提供的模板库。
事实上,在船长眼里,全场最让我感到惊艳的压轴部分,其实是这个做同款。
不愧是精选模板系列。
模板:
网址:
https://6slobvoh2opns.ok.kimi.link/?id=2012192466103803904&share_id=19bc7846-6132-838b-8000-0000085ee636
生成同款:
网址:https://gnct4vikvakgu.ok.kimi.link/
不!是!我真的觉得这个水平,是可以直接搬运上发布会的程度。
就这审美,确实比较有高级感那味儿啊,AI味差不多也被抖落抖落完了。
好吧,我可以暂时原谅一下Kimi K2.5的小问题。
毕竟,对于传统VLM,它属于降维打击了。
对了!相比之下,我用同一套提示词请豆老师做的耳机网页是这样的:
乍一看是不是还可以?
但我要说我的关键词就是耳机呢?
没有一张耳机的图!!
阿豆,我真的要闹了!
BTW,在KimiK2.5一个小时搭建一个网站的操作下,也有网友开始讨论,以后的歪网站,不会更猖獗了吧?
蒜鸟蒜鸟,工具嘛,还是得看人怎么用了。
最后,再简单BB两句Kimi K2.5的Agent 集群。
你可以理解为:让AI管理AI分身,AI界也出了一个“包工头”。
用咱们常见的生活场景来形容的话——
抄水表。
咱们以前老式的抄水表,是不是嬢嬢一个一个上门来抄。一个人要跑一两户。
现在,你这栋楼里有多少户,AI主管就派多少个“AI抄水表工人”。一人负责一户,同步抄表后汇总给一个人。把原本一个人用一天完成的事压缩成几分钟搞定。
在Kimi K2.5的演示案例中就是——
比如,求 AI 在 100 个细分领域中找出排名前三的 YouTube 创作者,或者调研过去10年的“搞笑诺贝尔奖”。
结果,Kimi会为每个领域或年份分配一个子智能体同时进行搜索,将最终结果交由一个指挥官进行整合汇总。
啧,这就是AI界的“外包工程”吗?(狗头.jpg)
不得不说,Kimi K2.5这一更新,又给国内大模型整上了压力轮了。这才2026年的第一个月,AI圈已经到了我睡一觉起来,就又不认识了的程度。。。
CPU要给干炸了啊。
借用一下网友的梗图:
现在又多了一个Kimi K2.5。
让子弹飞吧,就看赛得出哪匹千里马了?
热门跟贴