4月3日,全球权威大模型盲测榜单LMArena旗下的Code Arena公布了最新排名。先说结论全球第二是什么水平Code Arena:编程模型的"奥林匹克"全球第二,中国第一与Claude的差距为什么是编程模型编程是AI落地的"黄金场景"阿里的战略布局价格优势:2元vs几百元成本差十倍企业级市场更重要与豆包形成国产AI双雄两个赛道,两个冠军与国外竞争格局的变化实际体验如何程序员的反馈适合什么场景对普通人的影响如果你是程序员如果你是开发者团队负责人如果你是AI从业者理性看待结尾
阿里Qwen3.6-Plus登顶中国最强编程模型,全球排名第二。超越了OpenAI的o3-mini、o1等模型,仅次于Claude。
国产编程模型,终于能跟国际顶尖玩家正面刚了。
阿里千问3.6登顶编程模型榜单,说明国产AI在编程这个核心场景上实现了从"跟跑"到"并跑"的跨越。
5个核心发现:
1. Code Arena全球第二,中国第一
2. 超越OpenAI o3-mini、o1等模型
3. 编程表现接近Claude
4. 价格优势明显:2元就能买到百万级"AI架构师"
5. 权威盲测认证,比厂商跑分更有说服力
适合:程序员、开发者、技术团队负责人、关注国产AI发展的从业者。
不适合:认为国产AI永远追不上国外的悲观派、觉得AI编程是噱头的保守派。
LMArena是全球最知名的大模型评测平台。它的特点是盲测:评测者不知道背后是哪个模型,只能根据实际效果打分。
这比厂商自己发布的跑分靠谱多了。没有作弊空间,全凭实力说话。
Code Arena是LMArena旗下的子榜单,专门评测AI编程能力。评测方式是让模型写代码、debug、解释代码,然后由真人程序员打分。
能在Code Arena拿高分,说明这个模型真的能帮程序员解决问题。
Qwen3.6-Plus的成绩:
- 全球排名:第二
- 得分:1452分
- 超越:OpenAI的o3-mini、o1等模型
- 仅次于:Claude
这是中国模型在编程能力榜单上的最高排名。
之前国产模型在通用能力上进步很快,但在编程这个专业领域,一直落后于OpenAI和Claude。现在终于追上来了。
我一个做AI产品的朋友说:"编程是AI落地的核心场景之一。能在编程模型上追上Claude,说明国产AI的底层能力真的起来了。"
官方的说法是"编程表现接近全球最强编程模型Claude系列"。
我的理解是:Claude还是第一,但差距已经大幅缩小。在某些场景下,Qwen3.6-Plus可能已经能替代Claude。
考虑到价格差距,这种"接近"已经很有竞争力了。
大厂为什么都在死磕编程模型?
因为程序员是AI工具的完美用户:
- 技术敏感,愿意尝试新工具
- 问题明确,代码要么对要么错
- 效率提升可以直接量化
- 付费能力强,企业和个人都愿意买单
GitHub Copilot一年收入几亿美元,证明了编程助手这个市场有多大。
谁能做出最好的编程模型,谁就能拿下开发者生态。
阿里在AI上的投入一直很大,但之前更多是在通用大模型上发力。
这次Qwen3.6-Plus在编程能力上的突破,说明阿里找到了差异化竞争的突破口。
不是跟OpenAI拼通用能力,而是在特定场景(编程)上做深做透。
这是聪明的策略。通用大模型很难超越GPT-4,但在细分领域,国产模型完全有机会领先。
Qwen3.6-Plus的最大优势,除了能力,还有价格。
据媒体报道,Qwen3.6-Plus的价格是"2元就能买到百万级AI架构师的服务"。
相比之下,Claude的API费用要贵得多。同样是写代码,用Claude一个月可能要几百块,用Qwen3.6-Plus可能只要几十块。
效果差不多,成本差十倍。
对于个人开发者和小团队来说,这是很大的吸引力。
个人开发者看价格,企业客户看效果+成本。
如果Qwen3.6-Plus能在企业级功能(如代码审查、安全检测、私有部署)上做得足够好,很多企业愿意从Copilot或Claude迁移过来。
毕竟,能省90%的成本,还能支持国产,何乐而不为?
我一个在阿里工作的朋友说:"阿里云已经在推Qwen3.6-Plus的企业版了。很多企业客户听说价格便宜这么多,都愿意试用。"
前几天,豆包刚宣布日均Token使用量突破120万亿,全球第三。
今天,阿里千问3.6又登顶中国最强编程模型,全球第二。
国产AI正在多个赛道上同时发力:
- 通用大模型:豆包领先
- 编程模型:阿里千问领先
这不是偶然。说明国产AI的整体实力在提升,不再只是某一个点的突破。
全球AI竞争格局正在发生变化:
- 美国:OpenAI、Anthropic、Google三强争霸
- 中国:阿里、字节、百度、智谱等多强并起
- 差距在缩小,某些领域已经并跑甚至领先
对于用户来说,这是好事。有更多的选择,价格也会被压下来。
我收集了一些程序员试用Qwen3.6-Plus的反馈:
优点:
- 中文理解好,变量命名和注释更符合中国程序员习惯
- 代码生成速度快,响应及时
- 价格便宜,用起来不心疼
缺点:
- 复杂逻辑的处理还不如Claude
- 某些前沿技术理解不够深入
- 与IDE的集成还不如Copilot成熟
总体来说:日常开发够用了,复杂项目可能还得用Claude。
根据目前的反馈,Qwen3.6-Plus适合:
- 写常规的业务代码
- 写单元测试
- 代码解释和注释
- 简单的debug
不太适合:
- 架构设计
- 复杂算法
- 前沿技术调研
但这已经覆盖了程序员日常工作的很大一部分。
多了一个选择。如果之前用Copilot或Claude觉得贵,可以试试Qwen3.6-Plus。
建议:先试用免费额度,看看效果是否满足需求。如果日常开发够用,可以省不少钱。
可以考虑团队迁移到Qwen3.6-Plus。成本降低90%,对预算紧张的小团队来说很有吸引力。
但要注意:先小范围试用,确保能满足团队的实际需求。
阿里千问3.6的突破说明,国产AI在细分领域完全有机会领先。
不是非要跟OpenAI拼通用能力,找到自己的差异化优势更重要。
Qwen3.6-Plus登顶编程模型榜单,是个好消息。但也要理性看待:
是盲测榜单,不是实际落地
榜单成绩好,不代表实际使用中一定好。代码生成是复杂任务,实际效果还要看具体场景。
Claude还是第一
全球第二固然可喜,但第一是Claude。在某些复杂场景下,Claude可能还是更好。
生态差距仍然存在
GitHub Copilot有微软的生态支持,Claude有Anthropic的技术积累。Qwen3.6-Plus要追赶的不只是模型能力,还有生态。
建议的做法:
- 先试用,看实际效果
- 小范围验证,再决定是否大规模采用
- 关注后续迭代,国产模型的进步速度通常很快
阿里千问3.6登顶中国最强编程模型,是国产AI的又一个里程碑。
从通用大模型到编程模型,国产AI正在多个赛道上同时突破。
这不仅是技术的进步,更是信心的提升。
以前我们总觉得国产AI比国外差一截,现在看来,差距正在快速缩小。在某些领域,国产AI已经能跟国际顶尖玩家正面竞争了。
Claude不再是编程模型的唯一答案。国产AI,也能写代码。
你怎么看阿里千问3.6的表现?欢迎在评论区聊聊你的观点。
热门跟贴