1500亿参数对6710亿参数,Meta的Llama 3.3和DeepSeek-V3本不该出现在同一张擂台。但Tom's Guide的实测把这场不对等较量变成了教科书级案例——有时候,模型大小只是入场券,真正决定胜负的是你怎么用它。
测试者没跑分,没测代码生成,而是设计了5个真实场景:省钱、读新闻、抗焦虑、搞创意、做决策。这些才是普通人打开AI的真正理由。
第一关:省钱
提示词很具体——"我每周食品杂货预算75美元,帮我制定省钱计划"。DeepSeek直接甩出一份可执行的周计划,把75美元拆成蛋白质、碳水、蔬果、杂项四类,每类给具体金额和采购建议。鸡肉 thighs 比 breast 便宜40%,冷冻蔬菜营养不差还耐放,批量采购大米和豆类——这些细节让计划像是从一个会过日子的朋友嘴里说出来的。
Meta AI的回应则像财务软件的自动回复。它列了通用原则:用优惠券、买当季食材、减少浪费。没错,但没用。测试者原话:「DeepSeek gave me a plan I could actually use. Meta gave me a TED talk.」
差距不在知识量,而在交付形态。一个给答案,一个给框架。
第二关:读新闻
测试用的是当时正在发酵的科技事件。DeepSeek的摘要带时间线,标注信息来源,主动说明哪些部分基于公开报道、哪些是推测。Meta AI同样完成了任务,但少了那层"来源意识"——它不会告诉你"这部分我没把握"。
这对25-40岁的读者很关键。你们不是怕AI说错,是怕AI说错却不自知。DeepSeek的谨慎在这里成了信任资产。
第三关:抗焦虑
提示词模拟了一个常见场景:工作 overwhelm,需要快速理清优先级。DeepSeek用了"大脑清空"(Brain Dump)技巧,引导用户把所有待办事项倒出来,再按紧急-重要矩阵分类。过程中穿插具体话术:"这个任务可以推迟到周四吗?""这件事.delegate 给同事的成本是什么?"
Meta AI的建议更标准:深呼吸、列清单、一次只做一件事。心理健康领域的"正确废话"。
测试者的观察很毒:「Meta sounds like a wellness app. DeepSeek sounds like a project manager who's been in the trenches.」
第四关:搞创意
要求是为一款虚构的环保产品设计营销概念。DeepSeek产出了三个差异化方案,每个带目标人群、核心信息、渠道建议。Meta AI给了一个方案,但展开得像 Wikipedia 条目——全面,却没法直接拿去用。
创意任务有个隐藏评分标准:输出是否处于"可执行"状态。DeepSeek的答案接近初稿,Meta的接近调研笔记。
第五关:做决策
最后一题是经典的"选offer"困境:两份工作,薪资、通勤、成长空间各有优劣。DeepSeek建了决策矩阵,给每个维度赋权重,引导用户填入个人偏好,最后算出加权得分。它没替你做决定,但把模糊焦虑转化成了可讨论的结构。
Meta AI列出了 pros and cons,然后建议你"听从内心"。
五轮打完,比分悬殊。DeepSeek在实用性、结构化、用户视角三个维度全面压制。Meta AI不是不能回答问题,是它的默认模式是"提供信息",而DeepSeek的默认模式是"解决问题"。
这背后有个产品哲学差异。Meta把AI当成搜索的升级版,DeepSeek(至少在这个版本里)把它当成外包大脑的接口。一个问"你想知道什么",一个问"你想完成什么"。
参数规模的反转更有意思。Meta的1500亿对DeepSeek的6710亿,但后者用了混合专家架构(MoE),每次只激活370亿参数。更少的活跃计算量,更好的结果。这对"大力出奇迹"的信仰是个微妙打击。
测试者最后补了一句:「If Meta wants to win these matchups, it needs to stop optimizing for engagement and start optimizing for outcomes.」
话糙理不糙。Llama 3.3是开源生态的标杆,但开源不等于好用。Meta把模型放出来,让社区去长出手脚;DeepSeek选择自己长出手脚,哪怕模型封闭一些。
两条路线没有绝对高下。但如果你今天打开AI是为了搞定某件事——而不是研究AI本身——实测结果已经很明显了。
最后一个细节:测试者注意到DeepSeek的回复长度普遍比Meta长30%-40%,但阅读负担反而更轻。因为它的结构更清晰,小标题、编号、加粗用得克制而有效。Meta的回复像一篇流畅的散文,DeepSeek像一份标注好的检查清单。
产品经理出身的读者应该懂这种差别。不是字数问题,是信息架构问题。
这场1500亿对6710亿的较量,最终输的不是参数,是交付思维。Meta把AI当内容生产,DeepSeek把它当任务代理。用户要的是后者,但前者更容易刷到存在感——这或许是Meta真正的困境。
下一轮AI Madness,测试者说要让Claude和DeepSeek碰一碰。你押谁?
热门跟贴