Meta用1500亿参数赌一把，DeepSeek 671B却让它

野生运营

2026-03-26 12:40 ·北京

1500亿参数对6710亿参数，Meta的Llama 3.3和DeepSeek-V3本不该出现在同一张擂台。但Tom's Guide的实测把这场不对等较量变成了教科书级案例——有时候，模型大小只是入场券，真正决定胜负的是你怎么用它。

测试者没跑分，没测代码生成，而是设计了5个真实场景：省钱、读新闻、抗焦虑、搞创意、做决策。这些才是普通人打开AI的真正理由。

第一关：省钱

第一关：省钱

提示词很具体——"我每周食品杂货预算75美元，帮我制定省钱计划"。DeepSeek直接甩出一份可执行的周计划，把75美元拆成蛋白质、碳水、蔬果、杂项四类，每类给具体金额和采购建议。鸡肉 thighs 比 breast 便宜40%，冷冻蔬菜营养不差还耐放，批量采购大米和豆类——这些细节让计划像是从一个会过日子的朋友嘴里说出来的。

Meta AI的回应则像财务软件的自动回复。它列了通用原则：用优惠券、买当季食材、减少浪费。没错，但没用。测试者原话：「DeepSeek gave me a plan I could actually use. Meta gave me a TED talk.」

差距不在知识量，而在交付形态。一个给答案，一个给框架。

第二关：读新闻

第二关：读新闻

测试用的是当时正在发酵的科技事件。DeepSeek的摘要带时间线，标注信息来源，主动说明哪些部分基于公开报道、哪些是推测。Meta AI同样完成了任务，但少了那层"来源意识"——它不会告诉你"这部分我没把握"。

这对25-40岁的读者很关键。你们不是怕AI说错，是怕AI说错却不自知。DeepSeek的谨慎在这里成了信任资产。

第三关：抗焦虑

第三关：抗焦虑

提示词模拟了一个常见场景：工作 overwhelm，需要快速理清优先级。DeepSeek用了"大脑清空"（Brain Dump）技巧，引导用户把所有待办事项倒出来，再按紧急-重要矩阵分类。过程中穿插具体话术："这个任务可以推迟到周四吗？""这件事.delegate 给同事的成本是什么？"

Meta AI的建议更标准：深呼吸、列清单、一次只做一件事。心理健康领域的"正确废话"。

测试者的观察很毒：「Meta sounds like a wellness app. DeepSeek sounds like a project manager who's been in the trenches.」

第四关：搞创意

第四关：搞创意

要求是为一款虚构的环保产品设计营销概念。DeepSeek产出了三个差异化方案，每个带目标人群、核心信息、渠道建议。Meta AI给了一个方案，但展开得像 Wikipedia 条目——全面，却没法直接拿去用。

创意任务有个隐藏评分标准：输出是否处于"可执行"状态。DeepSeek的答案接近初稿，Meta的接近调研笔记。

第五关：做决策

第五关：做决策

最后一题是经典的"选offer"困境：两份工作，薪资、通勤、成长空间各有优劣。DeepSeek建了决策矩阵，给每个维度赋权重，引导用户填入个人偏好，最后算出加权得分。它没替你做决定，但把模糊焦虑转化成了可讨论的结构。

Meta AI列出了 pros and cons，然后建议你"听从内心"。

五轮打完，比分悬殊。DeepSeek在实用性、结构化、用户视角三个维度全面压制。Meta AI不是不能回答问题，是它的默认模式是"提供信息"，而DeepSeek的默认模式是"解决问题"。

这背后有个产品哲学差异。Meta把AI当成搜索的升级版，DeepSeek（至少在这个版本里）把它当成外包大脑的接口。一个问"你想知道什么"，一个问"你想完成什么"。

参数规模的反转更有意思。Meta的1500亿对DeepSeek的6710亿，但后者用了混合专家架构（MoE），每次只激活370亿参数。更少的活跃计算量，更好的结果。这对"大力出奇迹"的信仰是个微妙打击。

测试者最后补了一句：「If Meta wants to win these matchups, it needs to stop optimizing for engagement and start optimizing for outcomes.」

话糙理不糙。Llama 3.3是开源生态的标杆，但开源不等于好用。Meta把模型放出来，让社区去长出手脚；DeepSeek选择自己长出手脚，哪怕模型封闭一些。

两条路线没有绝对高下。但如果你今天打开AI是为了搞定某件事——而不是研究AI本身——实测结果已经很明显了。

最后一个细节：测试者注意到DeepSeek的回复长度普遍比Meta长30%-40%，但阅读负担反而更轻。因为它的结构更清晰，小标题、编号、加粗用得克制而有效。Meta的回复像一篇流畅的散文，DeepSeek像一份标注好的检查清单。

产品经理出身的读者应该懂这种差别。不是字数问题，是信息架构问题。

这场1500亿对6710亿的较量，最终输的不是参数，是交付思维。Meta把AI当内容生产，DeepSeek把它当任务代理。用户要的是后者，但前者更容易刷到存在感——这或许是Meta真正的困境。

下一轮AI Madness，测试者说要让Claude和DeepSeek碰一碰。你押谁？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴