6月的国产AI圈,堪称神仙打架。
GLM-5.2全量开源MIT协议,Kimi K2.7 Code更新,DeepSeek V4-Pro API降价75%,MiniMax M3稳步推进。四大模型同时亮剑。
我用20个真实职场任务,把这四个模型重新测了一遍。结果比两个月前变化很大。
测试方法
20个任务分5类,每类4个:
- 文档写作:周报、会议纪要、邮件、方案
- 数据分析:Excel分析、可视化、数据报告、趋势预测
- 信息处理:读PDF、读网页、整理录音、知识问答
- 创意策划:活动方案、营销文案、竞品分析、问卷设计
- 效率工具:排日程、做待办、写议程、做时间线
每个任务用完全相同的提示词,每个模型只测一次。
综合排名
排名
模型
综合得分
最强项
1
DeepSeek V4-Pro
87分
数据分析、逻辑推理
2
GLM-5.2
85分
中文写作、本土化
3
Kimi K2.7
82分
长文档、信息处理
4
MiniMax M3
71分
编程、性价比
详细结果
文档写作:GLM-5.2 > DeepSeek V4-Pro > Kimi K2.7 > MiniMax M3
GLM-5.2写方案最懂中国职场语境,邮件分寸感最好。DeepSeek逻辑最完整。Kimi文风自然但深度不够。MiniMax中规中矩。
数据分析:DeepSeek V4-Pro > GLM-5.2 > Kimi K2.7 > MiniMax M3
DeepSeek的统计能力最强,业务洞察也最深。GLM-5.2的中文报告最有"人味"。Kimi做可视化代码不错。MiniMax需要更多引导。
信息处理:Kimi K2.7 > DeepSeek V4-Pro > GLM-5.2 > MiniMax M3
Kimi读100页PDF最稳,网页结构化输出最好。DeepSeek也能做但排版稍差。
创意策划:GLM-5.2 > DeepSeek V4-Pro > Kimi K2.7 > MiniMax M3
GLM-5.2本土化创意最好,营销文案有网感。
效率工具:DeepSeek V4-Pro = Kimi K2.7 > GLM-5.2 > MiniMax M3
DeepSeek做时间线依赖关系识别强,Kimi排日程最智能。
性价比之王
如果看成本:
- GLM-5.2:开源免费,API几乎白菜价
- DeepSeek V4-Pro:降价75%后非常便宜
- Kimi K2.7:网页版免费,API略贵
- MiniMax M3:开源可本地部署,适合技术玩家
我的选择
现在我日常是这样搭配的:
- 数据分析、复杂逻辑任务 → DeepSeek V4-Pro
- 写中文方案、汇报、邮件 → GLM-5.2
- 读长文档、做知识库 → Kimi K2.7
- 本地部署、自动化脚本 → MiniMax M3
国产AI四强争霸,没有绝对的王者,但每个都有明确的优势战场。对我们普通用户来说,这不只是"哪个最强"的问题,而是"什么任务用哪个"的问题。
学会组合使用,比迷信单一模型重要得多。
热门跟贴