6月的国产AI圈,堪称神仙打架。

GLM-5.2全量开源MIT协议,Kimi K2.7 Code更新,DeepSeek V4-Pro API降价75%,MiniMax M3稳步推进。四大模型同时亮剑。

我用20个真实职场任务,把这四个模型重新测了一遍。结果比两个月前变化很大。

测试方法

20个任务分5类,每类4个:

- 文档写作:周报、会议纪要、邮件、方案

- 数据分析:Excel分析、可视化、数据报告、趋势预测

- 信息处理:读PDF、读网页、整理录音、知识问答

- 创意策划:活动方案、营销文案、竞品分析、问卷设计

- 效率工具:排日程、做待办、写议程、做时间线

每个任务用完全相同的提示词,每个模型只测一次。

综合排名

排名

模型

综合得分

最强项

1

DeepSeek V4-Pro

87分

数据分析、逻辑推理

2

GLM-5.2

85分

中文写作、本土化

3

Kimi K2.7

82分

长文档、信息处理

4

MiniMax M3

71分

编程、性价比

详细结果

文档写作:GLM-5.2 > DeepSeek V4-Pro > Kimi K2.7 > MiniMax M3

GLM-5.2写方案最懂中国职场语境,邮件分寸感最好。DeepSeek逻辑最完整。Kimi文风自然但深度不够。MiniMax中规中矩。

数据分析:DeepSeek V4-Pro > GLM-5.2 > Kimi K2.7 > MiniMax M3

DeepSeek的统计能力最强,业务洞察也最深。GLM-5.2的中文报告最有"人味"。Kimi做可视化代码不错。MiniMax需要更多引导。

信息处理:Kimi K2.7 > DeepSeek V4-Pro > GLM-5.2 > MiniMax M3

Kimi读100页PDF最稳,网页结构化输出最好。DeepSeek也能做但排版稍差。

创意策划:GLM-5.2 > DeepSeek V4-Pro > Kimi K2.7 > MiniMax M3

GLM-5.2本土化创意最好,营销文案有网感。

效率工具:DeepSeek V4-Pro = Kimi K2.7 > GLM-5.2 > MiniMax M3

DeepSeek做时间线依赖关系识别强,Kimi排日程最智能。

性价比之王

如果看成本:

- GLM-5.2:开源免费,API几乎白菜价

- DeepSeek V4-Pro:降价75%后非常便宜

- Kimi K2.7:网页版免费,API略贵

- MiniMax M3:开源可本地部署,适合技术玩家

我的选择

现在我日常是这样搭配的:

- 数据分析、复杂逻辑任务 → DeepSeek V4-Pro

- 写中文方案、汇报、邮件 → GLM-5.2

- 读长文档、做知识库 → Kimi K2.7

- 本地部署、自动化脚本 → MiniMax M3

国产AI四强争霸,没有绝对的王者,但每个都有明确的优势战场。对我们普通用户来说,这不只是"哪个最强"的问题,而是"什么任务用哪个"的问题。

学会组合使用,比迷信单一模型重要得多。