4月29日凌晨,阿里巴巴开源新一代通义千问模型 Qwen3,参数量仅为DeepSeek-R1 的1/3,成本大幅下降。
我自己衡量大模型会看三个点:成本、效率、体验。
忽略成本谈体验,都是耍流氓。
真正的开发者和普通用户,不仅会看哪个模型结果好,还会看哪个产品功能丰富,更会在意要花多少算力、多少钱、多长时间。
从数据来看,Qwen3 性能指标全面超越 R1、OpenAI-o1 等全球顶尖模型,登顶全球最强开源模型。
体验链接:http://chat.qwenlm.ai
在 DeepSeek R2 出来之前,Qwen3 的模型能力是明确领先的,产品能力更是有跨越式优势的。
比如 Qwen3 除了文字、代码、数学,还有视频、绘画等能力和日常高频的场景预设。
先看几个视频效果:
Prompt:一只胖胖的卡皮巴拉在吃草
Prompt:阳光透过树林和绿叶洒下来
Prompt:火车穿越金黄的田野驶来
Prompt:跳动的柴火
Prompt:松鼠在落叶中演奏摇滚乐
Prompt:两个女人表面微笑实则想杀了对方
推理能力、数据计算、代码能力等等,已经有不少朋友测试过了,是 Qwen3 的优势强项。
而相对不引人注意的视频生成能力,看效果也已经达到了第一梯队。
手机上通义APP也是满血版,最新Qwen3模型生视频任意用
关键还是不限次数,开源免费的啊!!
市面上哪还有生图、生视频产品,能不限制免费使用的。
真的用起来,只有一个感受:真香!
日常其他场景,体感上效果可以说是又快又好。比如我想研究一下 Agent 与 MCP 的关系:
思路很清晰,严谨,结果的完整度很高,还可以根据想要更快/更多思考,选择需要的思考量。
比如有时候就想要一个直来直去的简单回答,或者希望秒出答案也也给出思考过程,调节“思考长度”就很合适。
在更长的“思考长度”下,Qwen3 会执行更多中间步骤,如分解问题、逐步推导、验证答案等,给出更深思熟虑的答案;而在“非推理模式”下,模型会直接生成答案。
同一个问题,Qwen 3 可以完成“快思考”和“慢思考”,这类似于人类在回答简单问题时,凭经验或直觉快速作答,面对复杂难题时再深思熟虑,仔细思考给出答案。
比如下面就是 Qwen3 一键生成的介绍自己的卡片效果:
回答数学、地理交叉学科的问题,Qwen3 也可以表现的很好:
比如下面这道题,曾难倒一众大模型:
“一架飞机从北京起飞,先向北飞了 1000 公里,再向西飞了 1000 公里,再向南飞了 1000 公里,再向东飞了 1000 公里,这架飞机可以飞回北京吗?”
由于地球是个球体,纬线长度随纬度升高而变短,因此按照题目规定的路径,飞机是无法飞回原地的。
Qwen3 调用数学和地理知识,不仅回答正确,还给出了扩展思考。
如果我是老师的话,我肯定要给 Qwen 更多分,公式步骤更全,计算过程更详细。
日常问题的话,在通义APP上打字会更快、更方便顺手。
再来一道弱智吧的题目:买一台三千块左右的电脑大概需要多少钱?
Qwen3 注意到了题目中存在的矛盾 —— 提到了「三千块左右 」的预算,但又问「大概需要多少钱 」,由此猜测是用户想了解电脑价格或配置。
于是,Qwen3 列出了 3000 元能买到笔记本、台式机和组装台式机,分别介绍了它们的机型、配置和缺点,并以表格的形式给出了总结建议。
拿《2024年高考全国甲卷数学(理)》试题再来试一下。
答案也是完全正确。结果就是 、
要知道,设计和训练混合推理模型的难度,是远超单纯的推理模型的。
训练混合推理模型,有复杂的机制,相当于模型要学习两种不同的输出分布,要做到两个模式融合且基本不影响任何一种模式下的效果,很考验训练过程的训练策略。
最终的效果也就是,Qwen3 在具体问题的表现上更好。
除了生产力和生活使用,我还试了一下一些有意思的小话题。
比如:将“I love Qwen3-235B-A22B”这句话的所有内容反过来写
这个问题很多模型会出现CoT的问题,造成幻觉或者莫名其妙的奇葩回答。
但 Qwen3全部都对了。
再比如脑筋急转弯一类的问题:“小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹?”
推理过程和最终答案也都没问题。可见不同的几类细分Qwen3模型,在基本表现上都是优秀线以上。
像之前我常测试的生成天气预告卡片、贪吃蛇等等,对于Qwen3来说已经是基本操作了。
Prompt:创建一个 HTML 文件,包含 CSS 和 JavaScript,用来生成动画天气卡片,卡片用不同的动画形式直观地表示以下天气状况:风 (例如移动的云、摇曳的树木)、雨 (例如落下的雨滴)、太阳 (例如闪耀的光线)、雪 (例如飘落的雪花、积雪),并排显示所有卡片,底部有一个漂亮的按钮可以切换动画速度。
Qwen3 几乎是秒出代码,速度非常快,在处理简单任务时显然有自己的算力分配逻辑。
再比如下面这个小球游戏:
Prompt:编写一个 Python 程序,展示一个球在旋转的六边形内弹跳。球应受到重力的影响,并且必须真实地反弹到旋转的墙壁上。
有一说一,这个小球在旋转六边形里弹跳的程序,Qwen3 编得真不错,既没有出现小球掉出来的情况,也没有弹跳角度不合理或者程序卡死的情况。
经典的贪吃蛇小游戏也完成得很顺利,也是秒出,就是审美很像80年代电脑界面,想要更好看的话Prompt要更长更细致一点。
我又尝试了一些好玩的,比如生成一个表情小游戏,提示词来自 @甲木
请你扮演一个Web游戏开发者。设计并生成一个**表情符号反应堆 **的游戏。 1、核心创意: 一个快节奏的反应游戏。屏幕上会快速闪过一个目标表情符号(例如:笑脸),下方会同时出现3-4个选项表情符号,玩家需要在限定时间内(例如1-2秒)点击与目标匹配的那个表情符号。 2、玩法: - 屏幕中央显示目标Emoji。 - 下方按钮区域快速刷新3-4个Emoji选项,其中一个是正确的。 - 玩家需在计时条走完前点击正确的Emoji。 - 点击正确得分,速度加快;点击错误或超时则游戏结束(或扣除生命值)。 - 显示最高分。 3、技术实现 (HTML/JS/CSS): - HTML: 用于显示目标Emoji、选项按钮、计时条、得分。 - CSS: 设计简洁明快的界面,计时条动画。 - JavaScript: 存储一个Emoji列表。 随机选择目标Emoji和干扰项。 动态更新按钮内容。 实现计时器逻辑和倒计时动画。 处理点击事件,判断对错,更新得分/状态。 控制游戏节奏(逐渐加快)。 4、趣味点: 简单上手,考验反应速度,利用通用的Emoji增加亲和力和趣味性,适合碎片时间玩。
再来一个小游戏,同样是甲木的提示词:
请你扮演一个Web游戏开发者。设计并生成一个**单一的HTML文件**,使用HTML Canvas、CSS和JavaScript,制作一个简单的像素风格宠物收集小游戏。 **重点要求:** 1、一定要注意审美,做出来的网页要有美感。 2、页面要有设计感,有足够的传播度 **要求:** 1. **游戏内容 (由你生成):** * **游戏名称:** (例如:“像素爪爪接星星” 或 “方块萌宠大作战”) * **宠物描述:** 描述一个简单的像素宠物形象(可以用文字描述其构成,例如“一个10x10像素的橙色方块身体,上方有两个小三角形耳朵”),并给它起个名字。 * **玩法说明:** 简要说明如何用左右箭头键移动宠物,目标是接住从上方掉落的“金元宝”(或其他像素物品),并显示得分。 2. **HTML结构:** * 包含标题、宠物描述和玩法说明。 * 一个 ` ` 元素 (`id= "gameCanvas"`) 用于绘制游戏。 * 一个区域 (`id="score"`) 显示当前得分。 3. **CSS样式 (内部 `
热门跟贴