#内卷# #竞争#
模型降价这件事,对用户来说不用绕弯子:就是好事。
前几天 DeepSeek V4-Pro 宣布永久降价,这个价格在全球独一档,遥遥领先。
很多人还没来得及细算,小米 MiMo-V2.5 系列也跟上了,而且不是象征性降一点。小米公告里写得很直接:MiMo-V2.5 系列 API 永久降价,最高降幅达 99%,Token Plan 的用量提升到原来的 5-8 倍,生效时间是北京时间 2026 年 5 月 27 日 0 点。
这背后的信号很清楚。大模型厂商已经开始从“谁发布更震撼”进入“谁能让用户更敢用”的阶段。以前很多人试模型,心里总有一层顾虑:模型再强,跑一次长任务到底花多少钱?如果 Agent 一边读文件、一边调工具、一边改项目,账单会不会突然吓人?
现在价格被打下来,用户最直接的感受是:可以更大胆地试了。尤其是那些以前舍不得跑的长文档、多轮分析、代码项目、Agent 工作流,终于有机会从“想想算了”变成“拿一个测试任务跑一轮看看”。
这次小米不是小修价格,是直接打到 DeepSeek 同一档
直接看数据
档位
模型
缓存命中输入
缓存未命中输入
输出
低价档
MiMo-V2.5
0.02 元 / 百万 tokens
1 元 / 百万 tokens
2 元 / 百万 tokens
低价档
DeepSeek V4 Flash
0.02 元 / 百万 tokens
1 元 / 百万 tokens
2 元 / 百万 tokens
Pro 档
MiMo-V2.5-Pro
0.025 元 / 百万 tokens
3 元 / 百万 tokens
6 元 / 百万 tokens
Pro 档
DeepSeek V4-Pro
0.025 元 / 百万 tokens
3 元 / 百万 tokens
6 元 / 百万 tokens
这个表放在一起看,意思就很明显了。小米 MiMo-V2.5 对标的是 DeepSeek V4 Flash,MiMo-V2.5-Pro 对标的是 DeepSeek V4-Pro。缓存命中输入、缓存未命中输入、输出价格,“逐项贴齐”。
以前大家说模型便宜,往往还要看很多限制:是不是临时优惠,能不能长用,输入长度怎么算,缓存怎么算。这次小米公告强调的是永久降价,DeepSeek 这边也把 V4-Pro 的 2.5 折优惠转成后续正式降到原价四分之一。对用户来说,这比短期活动更重要。短期活动适合薅羊毛,永久降价才会改变使用习惯。
价格一样以后,真正要比的是谁更适合你的任务
价格贴近以后,模型选择反而更简单,也更难。
简单的是,用户不用再为了几倍价差纠结那么久。难的是,不能只盯着价格表了,要看任务类型。
小米 MiMo 的一个明显特点,是模型线更强调“多模态”和长上下文。官方模型页里,mimo-v2.5 标注了全模态理解,也就是图片、音频、视频内容理解这类能力;mimo-v2.5-pro 则主打文本生成、深度思考、工具调用、结构化输出、联网搜索,支持 1M 上下文和最大 128K 输出。
DeepSeek V4 这边,API 价格页主要列的是文本方向能力:思考模式、1M 上下文、最大 384K 输出、JSON 输出、Tool Calls、对话前缀续写、FIM 补全等。它的优势更集中在文本、代码、工具调用和长上下文复用上。
所以不能简单说谁替代谁。我认为更合理的判断是:
- 要处理图片、音频、视频理解,小米 MiMo-V2.5 更值得看。
- 要跑文本、代码、长文档、多轮 Agent,DeepSeek 的生态和缓存玩法更成熟。
- 要做深度分析、复杂推理,两个 Pro 档都可以测,不要只看宣传,最好用同一组任务跑一轮。
模型好不好,最后一定要落到自己的任务里。别人说强,不代表适合你的文件;榜单分高,也不代表你的场景返工少。
DeepSeek 的缓存命中,为什么会被反复提到
这轮价格战里,最容易被忽略的是“缓存命中”。
单看价格,很多人只看输入和输出。可在 Agent 场景里,输入经常比想象中大。比如一个代码项目,前面有系统提示词、项目规则、文件内容、历史对话、工具结果。每一轮都重新塞进去,输入 token 很快就上去了。
DeepSeek 的上下文硬盘缓存默认开启。简单理解,前面请求里已经出现过的一段内容,如果后面完整复用,就可能命中缓存。命中以后,这部分输入按更低价格计费。
以低价档为例,未命中输入是 1 元 / 百万 tokens,命中输入是 0.02 元 / 百万 tokens。输入部分差了 50 倍。
Pro 档差距更大。未命中输入是 3 元 / 百万 tokens,命中输入是 0.025 元 / 百万 tokens。输入部分差了 120 倍。
这就是为什么有人会研究 DeepSeek 的缓存命中率。不是为了炫技术,而是因为长任务里真的影响账单。
个人使用的 deepseek 命中缓存情况
个人使用的 Mimo 缓存命中情况
不过也要讲清楚,缓存不是许愿池。它要求前缀能复用,而且缓存系统本身也不保证 100% 命中。如果每一轮都把提示词重新排列、每次都插入新的时间戳、工具描述来回变化、上下文被 Agent 反复改写,命中率就会下降。
对普通用户来说,最容易理解的做法是:同一类长任务,尽量保持规则和资料位置稳定。比如一份长文档反复问问题,一套项目文件反复分析,一组固定规范反复检查,这类场景更容易吃到缓存红利。
小米这次降价,也是在把模型推向真实使用
小米公告里有一段技术解释,提到他们通过推理系统优化,让 KV Cache 在 GPU 显存、CPU 内存、SSD 之间的数据搬运量降到优化前接近七分之一,可缓存 token 数量提升到优化前接近 5 倍。翻成大白话,就是尽量让模型推理更省、更稳、更能支撑长任务。
这说明小米不是单纯在价格表上跟一手,而是在把底层推理成本也往下压。能不能持续打价格战,最终靠的不是口号,是推理系统、芯片利用率、缓存策略、调度能力和真实用户规模。
从模型质量看,MiMo-V2.5-Pro 官方展示了不少长程 Agent 任务,比如 SysY 编译器任务里跑了 672 次工具调用、4.3 小时,最终 233/233 测试通过。这类案例至少说明,小米在强调长任务、工具调用和 Agent 执行能力。
但理性一点看,官方案例就是官方案例,不能直接等同于所有用户都能跑出同样效果。DeepSeek 也一样,缓存命中率高的案例,通常也依赖工具架构和使用方式。模型强,价格低,只是第一步。真正进入日常工作,还要看稳定性、工具适配、报错处理、并发限制、文档质量和社区经验。
用户该高兴,但不用急着站队
这次最值得高兴的地方,不是某一家赢了,而是用户终于开始有选择权了。
过去很多人用 AI 工具,脑子里总有一个声音:这次任务会不会太贵?长文档能不能少问几轮?代码项目要不要拆小一点?Agent 能不能别一直跑?
当价格被打下来以后,用户会更愿意尝试,也会更愿意把 AI 放进真实流程里。不是只问两句闲聊,而是拿它整理资料、分析合同、读项目、跑测试、做客服知识库、生成培训材料、处理表格、帮小店做商品说明、给团队做内部问答。
MiMo 和 DeepSeek 继续内卷,短期看是模型厂商压力变大,长期看对用户和行业都可能是好事。价格下来以后,大家自然会继续比质量。谁更稳,谁更省,谁更少胡说,谁更适合 Agent 长任务,谁的工具链更顺,都会被用户用脚投票。
这也会逼着模型厂商从“会回答”走向“能干活”。只要真实任务跑得多,模型的缺点就会暴露得更快:哪类任务容易乱改,哪类上下文容易丢,哪类工具调用容易绕远,哪类输出看着漂亮但不能落地。价格战之后,质量战才会更残酷。
如果 Token 像手机流量,未来会不会出现免费 Token Hub
现在谈 Token 免费,听起来有点早。但换个角度想,并不离谱。
手机流量刚开始也贵。后来 Wi-Fi 普及,咖啡店、酒店、商场、机场、学校、办公室都开始提供免费 Wi-Fi。用户不一定知道背后是谁付了宽带费、路由器费、维护费,但使用体验变成了:到一个场所,连上网,就能用。
Token 未来会不会也出现类似形态?比如咖啡店、酒店、联合办公空间、图书馆、运营商营业厅、培训机构、企业园区,提供一个本地或云端的 Token Hub。用户到店后扫码登录,就能获得一段免费或低价 AI 额度,用来总结资料、改简历、做会议纪要、查路线、生成方案、翻译文件、辅助办公。
技术上,这件事并不难理解。它有点像“把 token 当成新的流量资源来运营”。商家买一批模型额度,接入统一入口,限制每人每天用量,设置可用模型和可用场景,再通过会员、消费、广告、套餐、运营商合作来分摊成本。
难点不在技术,难点在模式。
免费 Wi-Fi 解决的是上网入口。Token Hub 如果要成立,解决的就不只是“给你一个模型额度”,还要给场景:在咖啡店帮你整理资料,在酒店帮你做旅行计划,在医院帮你读检查注意事项,在学校帮你做学习辅导,在营业厅帮你理解套餐和合同,在企业前台帮访客办事。
如果只是送一点 token,用户可能用完就走。如果能把 token 变成具体服务,才可能变成新基础设施。
价格战的终局,可能不是最便宜,而是无感使用
模型价格继续往下走,用户当然欢迎。但最终只靠便宜还不够。
真正的终局,可能是用户不再天天想着“这一轮花了多少 token”。就像今天很多人到咖啡店不会先问 Wi-Fi 每兆多少钱,而是默认它应该能用、够快、稳定、安全。
大模型如果也走到这一步,行业变化会很大。个人用户会更敢用 AI 做长期任务;小商家会更容易接入智能客服和内容工具;学校、酒店、门店、政务大厅、运营商,都可能把 AI 额度当成服务的一部分。
小米 MiMo 对标 DeepSeek 降价,只是这一轮变化里的一个节点。它说明一件事:模型能力还在涨,价格已经开始往下压。接下来更值得看的,是不是会有更多厂商跟上,MiMo 和 DeepSeek 会不会继续在质量上互相追赶,以及 token 会不会像手机流量一样,被重新包装、重新分发、重新运营。
价格战让用户先受益,质量战决定谁能留下。至于 Token Hub 会不会出现,可能要看谁先把“模型额度”做成真正有场景的服务。
热门跟贴