这几年,美国一直对中国实施算力封锁,但是如果你稍微关注下AI圈,就会发现一个越来越明显的变化:中国的大模型,已经不是追赶着的姿态,而是直接卷进了第一梯队。
就说这周吧,中国三家公司DeepSeek,千问,Kimi,好像约好了似的,集体发布了自己的大模型,并且都冲上了Twitter的榜单。
其中Kimi更是突出,大模型竞技场LMArena放榜,Kimi K2.5代码能力全球开源第一,总榜前三,仅次于Claude和Gemini。
在Artificial Analysis榜单中,Kimi 2.5则是全球开源第一,总排名第五:
我也去试用了一下,印象最深的有两点:
1. 视觉能力提升明显,更有美感了。
2. 从单一Agent进化成了Agent团队。
0 1
强悍的视觉能力
专业设计师
说实话,大多数 AI 生成的网页,看一眼就能认出来,配色土,布局僵硬,交互也没啥感觉。
但是这个Kimi 2.5感觉就完全不同了,它的背后好像有个设计师,在辅助程序员做设计,做出来的产品很有美感。Kimi 2.5不但在写代码,它顺手把设计这件事也给包了。
我尝试用它生成一个天坛的介绍:
基于严谨的历史资料与建筑学信息检索,生成一张现代中式极简风格的视觉插图,系统性阐释北京天坛的每一个建筑与仪式细节。 插图需要清晰呈现天坛的空间层级、象征几何、结构构成与祭祀功能,包括但不限于:祈年殿、圜丘坛、皇穹宇、整体中轴布局,以及“天圆地方”等宇宙观象征体系。 最终请将结果以HTML 页面的形式呈现,适合在现代浏览器中直接查看。
最终它给我生成了一个这样的网站,对比之前AI生成的典型中国红,大黑体,这个极简审美显得非常优雅,不落俗套。
为了展示大模型的视觉能力,现在很流行让它们生成一个包含蜡烛燃烧网页来做对比测试,从下面的视频可以清楚地看出,Kimi K2.5生成的动效最好,最为精细,那一滴滴往下掉的蜡油都展示出来了:
像素级视觉
在之前我给大家介绍过一些AI工具,可以从图片生成网页,但是Kimi2.5又往前行了一大步,支持从视频生成网站!
我上传了一个浏览Computer History Museum网站的视频,其中点击了网站导航栏的两个菜单,并且点开了其中一篇文章的详情。
然后给Kimi 2.5下指令:
帮我精确复刻这个视频中的网站
Kimi 开始分析视频,迅速就发现了这个网站的含义:
然后创建Todo任务列表,准备开始工作。
稍等了一会儿,网站就“复刻”成功,不仅开发完成,Kimi还直接帮我做了部署!
看看这效果,几乎和原网站一模一样:
如果觉得哪个地方想修改,可以进入编辑模式,直接圈选,然后让Kimi修改: 把这个按钮改成蓝色
这对Kimi来说是小菜一碟,很快就搞定了:
0 2
强大的“集群”Agent
现在很多的大模型产品都不仅仅是Chat,而是升级成了Agent来帮助用户做事情。
Kimi 2.5除了支持单个Agent,还有个更厉害的“集群模式”,它可以瞬间拆解任务,协调多个Agent并行执行,执行效率一下子就飙升了。
这个拆解和组织的过程完全是AI自主的,并没有预设的模板,根据任务的需要,Kimi 2.5可以同时部署多达100个子代理,跨越1500个协调工具调用,相比单代理系统可将执行时间缩短4.5倍。
内部评估显示Agent集群可将端到端运行时间减少80%,同时支持更复杂的长周期工作负载。开发者报告称K2.5辅助的工作流可在几秒钟内完成以前需要几分钟的任务。
比如:我让它针对当前的教育问题,找6个教育专家做个辩论:
如今大学生就业形势越来越严峻,“知识改变命运”这句话已经不如20年前那么有效,有吸引力了。 现在有两种观点: 1.好岗位越来越少,所以应该更加努力地学习,争取考上更好的大学,这样才能获得这些有限的好岗位,中学生应该像之前那样,疯狂熬夜,刷题,上补习班,内卷,考上好高中,好大学,才有可能找到好工作
2.既然大学生就业这么难,好大学的就业也这么难,那不用那么内卷了,考试成绩一般就行,现在要发掘自己真正的爱好,重点发展自己的兴趣,在一个狭窄的领域超越大部分人,这样才能在未来获得成功。 帮我找6个顶级的教育家(最好有长期的教学经验),分为两组,第一组持有观点1,第二组持有观点2,进行辩论,最后输出一个汇总的观点
你看它建立了6个Agent,分配了任务,独立进行各自的研究。
最后给出“辩论”的结论:
Kimi的“蜂群”可不仅仅是做辩论,它是一个天然的批量处理的神器!
你还可以用它批量搜索,一次性调研 100 家上市公司;批量下载,打包下载 100 篇相关领域的学术论文;批量生图,生成 100 张风格统一的素材图,都非常方便。
0 3
开源的Kimi Code
我第一次接触到运行在命令行(CLI)里的 AI 时,其实是很疑惑的: 这玩意儿到底能干嘛?为啥不用AI IDE?
真正用了一段时间发现,命令行中的AI有着独特的价值。
它不是在小范围内进行代码生成,而是更关注整个项目结构、模块边界、依赖约束等,更适合进行项目级的扫描、理解、规划,然后进行大范围、工程级的修改。
例如我现在正在学习SQLite的源代码,我对Kimi Code提出了这样需求:
请解释 SELECT 语句从 parser 到 btree 查找的完整调用链
你看Kimi Code做出的分析就非常漂亮,不但有流程图,并且配合这代码进行了详细的讲解,对于理解Select语句的执行非常有用。
当然,如果你实在是不适应这种CLI中的AI,也可以把Kimi Code无缝集成到 VSCode、Cursor、JetBrains 和 Zed 等主流编辑器中。
你可能要问了,现在市面上类似的工具不少,Kimi Code的优势在哪儿?
其实,CLI中的AI工具主要分为两类
(1)以Claude Code 为代表,收费、闭源,它就像五星酒店,服务很好,但是你没有房产证。你使用它必须得一直和它绑定
(2)开源的项目,需要你得来回折腾,像自己盖房子,费时费力。
Kimi Code正好结合了两者的优势,既有Kimi官方提供的顶级模型,开箱即用,又完全开源,可以随意魔改。
在性能方面,Kimi Code的表现也非常突出,全球开源第一,总榜前三,和Claude非常接近,成本更低。
Kimi Code 还有一个独门绝技,在命令行中直接读取视频,然后生成代码。
相比其他工具需要使用额外的MCP Server、只能处理静态图片,这个功能可以说领先不少。
0 4
总结
整体体验下来,我的最大感受就是:Kimi 2.5 不仅仅在视觉能力方面非常突出,更是重新定义了AI的使用方式。
Kimi 2.5的视觉能力,已经不只是“能看图”,而是能真正看懂连续的行为和意图,生成极具美感的界面。
它的Agent,也不再是陪你聊天,而是能把一个目标拆开,自己去干活,干完再把结果交回来。
而Kimi Code的出现,则让这些能力真正落到了工程场景里。
强烈建议大家去试试这个新版本,感受下AI技术带来的震撼:https://www.kimi.com/
热门跟贴