程序员们有个老毛病:看自家代码像看前任,怎么看怎么别扭,看别人的反而能挑出一堆毛病。阿里通义团队大概深谙此道,Qwen3.6-Plus这次更新,专挑编程这块硬骨头啃。
国内大模型卷了这么久,写代码这事始终是块试金石。不是不能跑,是跑起来总差点意思——要么像实习生写的,功能全但屎山一座;要么像老油条交的,看着漂亮一跑就崩。Qwen3.6-Plus的卖点很直白:中国编程能力最强,没有之一。
这话听着像王婆卖瓜,但测试数据摆在那儿。HumanEval、MBPP、LiveCodeBench这些程序员熟悉的考场,它刷分刷得相当 aggressive。更关键的是它懂"工程味":不是给你一段能跑的代码就完事,而是知道什么时候该拆函数、什么时候该写注释、什么时候该提醒你"这段逻辑三年前就被 deprecated 了"。
有个细节挺有意思。模型对中文编程场景明显更熟,比如处理国内常用的框架、接口文档甚至报错信息的中文乱码,反应比海外模型快半拍。这半拍在 debug 时能救老命——毕竟谁没被 Stack Overflow 的机翻答案坑过呢。
阿里没大张旗鼓搞发布会,就发了篇技术博客。但 GitHub 上已经有开发者把 Qwen3.6-Plus 接进 Copilot 替代品里用,反馈最多的是"终于不用在 GPT-4 和 Claude 之间来回切换了"。
不过"最强"这顶帽子能戴多久,还得看 OpenAI 和 Anthropic 的下一次更新。大模型这行,今天的冠军可能是明天的 baseline。至少现在,写代码时多一个趁手的选择,对程序员来说总是好事——毕竟键盘是自己的,头发也是自己的。
热门跟贴