打开网易新闻 查看精彩图片

船长纠结了一下午,要不要写Kimi K2.5。。。

1月27日,也就是昨天,月之暗面正式发布并开源了最新的大模型Kimi K2.5。

官方技术报告的第一句话,就是自信满满的:

The most powerful open-source model to date.(迄今为止最强大的开源模型。)

打开网易新闻 查看精彩图片

究竟有多强大呢?

用数据说话。

比如,全网都在热转的这张,有关Kimi K2.5的benchmark的图。

打开网易新闻 查看精彩图片

如上图所示,Kimi K2.5在包括HLE、BrowseComp和DeepSearchQA等极具挑战性的Agent评测中都拿到了SOTA(当前表现最有的模型)。尤其是在HLE(人类最后考试)上,Kimi K2.5拿到了50.2%。

而在编程能力方面,Kimi K2.5也不逊色。在SWE-bench Verified上拿到了76.8%,虽说不是最顶的,但也几乎逼近了闭源的GPT和Gemini。至少这个表现,是能够被邀请上桌,和大家一起掰掰手腕子的了。

打开网易新闻 查看精彩图片

从数据上来看非常牛X,但光纸上谈兵,肯定是不行的。(狗头.jpg)

所以,3!2!1!上体验!!!!!!!!!

PS:本文未被Kimi充值,大家可放心食用。

打开网易新闻 查看精彩图片

要说看完Kimi K2.5的介绍视频,满心满眼都是过年要放12天假的船长,就记住了两个最核心的点:

一个是视觉编程(Visual Coding),另一个是Agent 集群。

图片、视频+Coding。Kimi,你是真敢想啊。

这是什么意思呢?

打个比方,咱们平时看到某某网站做得特别好,是不是会立马下意识地产生:

我能不能也做一个同款的想法?

但是吧,没点金刚钻,你还真干不了的这前端的活。(特别是之前的手搓时代。)

诶,Kimi K2.5,来了。

你扔给它一张网站截图或者是一段录屏视频,它能自动给你复刻一个同款网站。

PS:如果你喂的是视频的话,效果更佳。因为你会发现,它不仅能看懂静态的UI布局,还能理解动态的交互逻辑,比如滚动的触发特效和卡片翻转动画等……

打开网易新闻 查看精彩图片

越听越有意思,船长立马给它扔了张B站截图。

“Kimi,我就要这个。”

打开网易新闻 查看精彩图片

来看看效果:

打开网易新闻 查看精彩图片

网址放在这儿了:

https://34fruw3kfgr6e.ok.kimi.link/

你憋说,你憋说,效果真不错。

只见,编辑部听取“哇”声一片。

除了这视频内容简介,又给我“胡言乱语”了以外:

打开网易新闻 查看精彩图片

但最重要的是,全程都是它在干活,最后直接一键部署即可搞定。

打开网易新闻 查看精彩图片

But,你要说在这个过程中,它有没有一些小问题呢???

有的。

从使用体验上来讲,它不是100%顺畅,就像在WC一待就是一小时的便秘中年人。

先帝创业未半,而中道崩殂。说人话:刚把图发过去,它就提醒了我三次“打钱”!

“和Kimi聊天的人太多啦,订阅会员可进入独立的优先队列。”

打开网易新闻 查看精彩图片

熟悉的配方,熟悉的味道。

让我想起了Kimi最最最开始爆火的时候,也出现了类似的情况:

打开网易新闻 查看精彩图片

是的,或许这次也是下午想要体验的人太多了,Kimi崩了会儿。

只不过,如果你是尊贵的VIP的话,这回可以走VIP专属通道。

三种会员内容的收费标准如下:

Andante 包月为49元/月。

Moderato 包月为99元/月。

Allegretto 包月为199元/月。

打开网易新闻 查看精彩图片

咱们也可以理解,做大模型本来就烧钱,为爱发电根本不现实。

大家也逐渐被各种VIP培养出了付费意识,就是这个定价吧,你怎么看呢?

OK,Kimi K2.5被部分人吐槽的另一个点,还有速度有点慢了。

一等就是一个小时打底。

@Lena用Kimi K2.5做了个算命小网站,满打满算跑了一个半小时。

网址在此:

https://onwlpil5r3hxs.ok.kimi.link/

其实这个时间问题,见仁见智。

我觉得还行,挺快的了。

如果你是个急性子,我劝你还是千万别着急。

(也有可能上班就是“度日如年”。)

打开网易新闻 查看精彩图片

除了让Kimi K2.5生成我们想要的网站,我们还玩了玩,Kimi提供的模板库。

事实上,在船长眼里,全场最让我感到惊艳的压轴部分,其实是这个做同款。

不愧是精选模板系列。

模板:

打开网易新闻 查看精彩图片

网址:

https://6slobvoh2opns.ok.kimi.link/?id=2012192466103803904&share_id=19bc7846-6132-838b-8000-0000085ee636

生成同款:

打开网易新闻 查看精彩图片

网址:https://gnct4vikvakgu.ok.kimi.link/

不!是!我真的觉得这个水平,是可以直接搬运上发布会的程度。

就这审美,确实比较有高级感那味儿啊,AI味差不多也被抖落抖落完了。

好吧,我可以暂时原谅一下Kimi K2.5的小问题。

毕竟,对于传统VLM,它属于降维打击了。

对了!相比之下,我用同一套提示词请豆老师做的耳机网页是这样的:

打开网易新闻 查看精彩图片

乍一看是不是还可以?

但我要说我的关键词就是耳机呢?

没有一张耳机的图!!

阿豆,我真的要闹了!

BTW,在KimiK2.5一个小时搭建一个网站的操作下,也有网友开始讨论,以后的歪网站,不会更猖獗了吧?

蒜鸟蒜鸟,工具嘛,还是得看人怎么用了。

最后,再简单BB两句Kimi K2.5的Agent 集群。

你可以理解为:让AI管理AI分身,AI界也出了一个“包工头”。

用咱们常见的生活场景来形容的话——

抄水表。

咱们以前老式的抄水表,是不是嬢嬢一个一个上门来抄。一个人要跑一两户。

现在,你这栋楼里有多少户,AI主管就派多少个“AI抄水表工人”。一人负责一户,同步抄表后汇总给一个人。把原本一个人用一天完成的事压缩成几分钟搞定。

打开网易新闻 查看精彩图片

在Kimi K2.5的演示案例中就是——

比如,求 AI 在 100 个细分领域中找出排名前三的 YouTube 创作者,或者调研过去10年的“搞笑诺贝尔奖”。

结果,Kimi会为每个领域或年份分配一个子智能体同时进行搜索,将最终结果交由一个指挥官进行整合汇总。

啧,这就是AI界的“外包工程”吗?(狗头.jpg)

不得不说,Kimi K2.5这一更新,又给国内大模型整上了压力轮了。这才2026年的第一个月,AI圈已经到了我睡一觉起来,就又不认识了的程度。。。

CPU要给干炸了啊。

借用一下网友的梗图:

打开网易新闻 查看精彩图片

现在又多了一个Kimi K2.5。

让子弹飞吧,就看赛得出哪匹千里马了?