喜闻乐见：模型价格内卷开始，小米 MiMo 对标 Deepseek 也永久降价了|deepseek|上下文|内卷|喜闻乐见|小米mimo|开源模型|调用

#内卷# #竞争#

模型降价这件事，对用户来说不用绕弯子：就是好事。

前几天 DeepSeek V4-Pro 宣布永久降价，这个价格在全球独一档，遥遥领先。

很多人还没来得及细算，小米 MiMo-V2.5 系列也跟上了，而且不是象征性降一点。小米公告里写得很直接：MiMo-V2.5 系列 API 永久降价，最高降幅达 99%，Token Plan 的用量提升到原来的 5-8 倍，生效时间是北京时间 2026 年 5 月 27 日 0 点。

这背后的信号很清楚。大模型厂商已经开始从“谁发布更震撼”进入“谁能让用户更敢用”的阶段。以前很多人试模型，心里总有一层顾虑：模型再强，跑一次长任务到底花多少钱？如果 Agent 一边读文件、一边调工具、一边改项目，账单会不会突然吓人？

现在价格被打下来，用户最直接的感受是：可以更大胆地试了。尤其是那些以前舍不得跑的长文档、多轮分析、代码项目、Agent 工作流，终于有机会从“想想算了”变成“拿一个测试任务跑一轮看看”。

这次小米不是小修价格，是直接打到 DeepSeek 同一档

直接看数据

档位

模型

缓存命中输入

缓存未命中输入

输出

低价档

MiMo-V2.5

0.02 元 / 百万 tokens

1 元 / 百万 tokens

2 元 / 百万 tokens

低价档

DeepSeek V4 Flash

0.02 元 / 百万 tokens

1 元 / 百万 tokens

2 元 / 百万 tokens

Pro 档

MiMo-V2.5-Pro

0.025 元 / 百万 tokens

3 元 / 百万 tokens

6 元 / 百万 tokens

Pro 档

DeepSeek V4-Pro

0.025 元 / 百万 tokens

3 元 / 百万 tokens

6 元 / 百万 tokens

这个表放在一起看，意思就很明显了。小米 MiMo-V2.5 对标的是 DeepSeek V4 Flash，MiMo-V2.5-Pro 对标的是 DeepSeek V4-Pro。缓存命中输入、缓存未命中输入、输出价格，“逐项贴齐”。

以前大家说模型便宜，往往还要看很多限制：是不是临时优惠，能不能长用，输入长度怎么算，缓存怎么算。这次小米公告强调的是永久降价，DeepSeek 这边也把 V4-Pro 的 2.5 折优惠转成后续正式降到原价四分之一。对用户来说，这比短期活动更重要。短期活动适合薅羊毛，永久降价才会改变使用习惯。

价格一样以后，真正要比的是谁更适合你的任务

价格贴近以后，模型选择反而更简单，也更难。

简单的是，用户不用再为了几倍价差纠结那么久。难的是，不能只盯着价格表了，要看任务类型。

小米 MiMo 的一个明显特点，是模型线更强调“多模态”和长上下文。官方模型页里，mimo-v2.5 标注了全模态理解，也就是图片、音频、视频内容理解这类能力；mimo-v2.5-pro 则主打文本生成、深度思考、工具调用、结构化输出、联网搜索，支持 1M 上下文和最大 128K 输出。

DeepSeek V4 这边，API 价格页主要列的是文本方向能力：思考模式、1M 上下文、最大 384K 输出、JSON 输出、Tool Calls、对话前缀续写、FIM 补全等。它的优势更集中在文本、代码、工具调用和长上下文复用上。

所以不能简单说谁替代谁。我认为更合理的判断是：

要处理图片、音频、视频理解，小米 MiMo-V2.5 更值得看。
要跑文本、代码、长文档、多轮 Agent，DeepSeek 的生态和缓存玩法更成熟。
要做深度分析、复杂推理，两个 Pro 档都可以测，不要只看宣传，最好用同一组任务跑一轮。

模型好不好，最后一定要落到自己的任务里。别人说强，不代表适合你的文件；榜单分高，也不代表你的场景返工少。

DeepSeek 的缓存命中，为什么会被反复提到

这轮价格战里，最容易被忽略的是“缓存命中”。

单看价格，很多人只看输入和输出。可在 Agent 场景里，输入经常比想象中大。比如一个代码项目，前面有系统提示词、项目规则、文件内容、历史对话、工具结果。每一轮都重新塞进去，输入 token 很快就上去了。

DeepSeek 的上下文硬盘缓存默认开启。简单理解，前面请求里已经出现过的一段内容，如果后面完整复用，就可能命中缓存。命中以后，这部分输入按更低价格计费。

以低价档为例，未命中输入是 1 元 / 百万 tokens，命中输入是 0.02 元 / 百万 tokens。输入部分差了 50 倍。

Pro 档差距更大。未命中输入是 3 元 / 百万 tokens，命中输入是 0.025 元 / 百万 tokens。输入部分差了 120 倍。

这就是为什么有人会研究 DeepSeek 的缓存命中率。不是为了炫技术，而是因为长任务里真的影响账单。

个人使用的 deepseek 命中缓存情况

个人使用的 Mimo 缓存命中情况

不过也要讲清楚，缓存不是许愿池。它要求前缀能复用，而且缓存系统本身也不保证 100% 命中。如果每一轮都把提示词重新排列、每次都插入新的时间戳、工具描述来回变化、上下文被 Agent 反复改写，命中率就会下降。

对普通用户来说，最容易理解的做法是：同一类长任务，尽量保持规则和资料位置稳定。比如一份长文档反复问问题，一套项目文件反复分析，一组固定规范反复检查，这类场景更容易吃到缓存红利。

小米这次降价，也是在把模型推向真实使用

小米公告里有一段技术解释，提到他们通过推理系统优化，让 KV Cache 在 GPU 显存、CPU 内存、SSD 之间的数据搬运量降到优化前接近七分之一，可缓存 token 数量提升到优化前接近 5 倍。翻成大白话，就是尽量让模型推理更省、更稳、更能支撑长任务。

这说明小米不是单纯在价格表上跟一手，而是在把底层推理成本也往下压。能不能持续打价格战，最终靠的不是口号，是推理系统、芯片利用率、缓存策略、调度能力和真实用户规模。

从模型质量看，MiMo-V2.5-Pro 官方展示了不少长程 Agent 任务，比如 SysY 编译器任务里跑了 672 次工具调用、4.3 小时，最终 233/233 测试通过。这类案例至少说明，小米在强调长任务、工具调用和 Agent 执行能力。

但理性一点看，官方案例就是官方案例，不能直接等同于所有用户都能跑出同样效果。DeepSeek 也一样，缓存命中率高的案例，通常也依赖工具架构和使用方式。模型强，价格低，只是第一步。真正进入日常工作，还要看稳定性、工具适配、报错处理、并发限制、文档质量和社区经验。

用户该高兴，但不用急着站队

这次最值得高兴的地方，不是某一家赢了，而是用户终于开始有选择权了。

过去很多人用 AI 工具，脑子里总有一个声音：这次任务会不会太贵？长文档能不能少问几轮？代码项目要不要拆小一点？Agent 能不能别一直跑？

当价格被打下来以后，用户会更愿意尝试，也会更愿意把 AI 放进真实流程里。不是只问两句闲聊，而是拿它整理资料、分析合同、读项目、跑测试、做客服知识库、生成培训材料、处理表格、帮小店做商品说明、给团队做内部问答。

MiMo 和 DeepSeek 继续内卷，短期看是模型厂商压力变大，长期看对用户和行业都可能是好事。价格下来以后，大家自然会继续比质量。谁更稳，谁更省，谁更少胡说，谁更适合 Agent 长任务，谁的工具链更顺，都会被用户用脚投票。

这也会逼着模型厂商从“会回答”走向“能干活”。只要真实任务跑得多，模型的缺点就会暴露得更快：哪类任务容易乱改，哪类上下文容易丢，哪类工具调用容易绕远，哪类输出看着漂亮但不能落地。价格战之后，质量战才会更残酷。

如果 Token 像手机流量，未来会不会出现免费 Token Hub

现在谈 Token 免费，听起来有点早。但换个角度想，并不离谱。

手机流量刚开始也贵。后来 Wi-Fi 普及，咖啡店、酒店、商场、机场、学校、办公室都开始提供免费 Wi-Fi。用户不一定知道背后是谁付了宽带费、路由器费、维护费，但使用体验变成了：到一个场所，连上网，就能用。

Token 未来会不会也出现类似形态？比如咖啡店、酒店、联合办公空间、图书馆、运营商营业厅、培训机构、企业园区，提供一个本地或云端的 Token Hub。用户到店后扫码登录，就能获得一段免费或低价 AI 额度，用来总结资料、改简历、做会议纪要、查路线、生成方案、翻译文件、辅助办公。

技术上，这件事并不难理解。它有点像“把 token 当成新的流量资源来运营”。商家买一批模型额度，接入统一入口，限制每人每天用量，设置可用模型和可用场景，再通过会员、消费、广告、套餐、运营商合作来分摊成本。

难点不在技术，难点在模式。

免费 Wi-Fi 解决的是上网入口。Token Hub 如果要成立，解决的就不只是“给你一个模型额度”，还要给场景：在咖啡店帮你整理资料，在酒店帮你做旅行计划，在医院帮你读检查注意事项，在学校帮你做学习辅导，在营业厅帮你理解套餐和合同，在企业前台帮访客办事。

如果只是送一点 token，用户可能用完就走。如果能把 token 变成具体服务，才可能变成新基础设施。

价格战的终局，可能不是最便宜，而是无感使用

模型价格继续往下走，用户当然欢迎。但最终只靠便宜还不够。

真正的终局，可能是用户不再天天想着“这一轮花了多少 token”。就像今天很多人到咖啡店不会先问 Wi-Fi 每兆多少钱，而是默认它应该能用、够快、稳定、安全。

大模型如果也走到这一步，行业变化会很大。个人用户会更敢用 AI 做长期任务；小商家会更容易接入智能客服和内容工具；学校、酒店、门店、政务大厅、运营商，都可能把 AI 额度当成服务的一部分。

小米 MiMo 对标 DeepSeek 降价，只是这一轮变化里的一个节点。它说明一件事：模型能力还在涨，价格已经开始往下压。接下来更值得看的，是不是会有更多厂商跟上，MiMo 和 DeepSeek 会不会继续在质量上互相追赶，以及 token 会不会像手机流量一样，被重新包装、重新分发、重新运营。

价格战让用户先受益，质量战决定谁能留下。至于 Token Hub 会不会出现，可能要看谁先把“模型额度”做成真正有场景的服务。

喜闻乐见：模型价格内卷开始，小米 MiMo 对标 Deepseek 也永久降价了

热搜

热门跟贴

热搜

热门跟贴

相关推荐

DeepSeek降价75%背后：一场10万亿产业链重构

DeepSeek价格体系被打破，开发者API成本大幅降低

集体涨价！大模型开始找你“要钱”

小米高端音箱半年腰斩：从3998到2423元的降价逻辑

DeepSeek大模型登顶调用榜；五一视界具身智能数据平台Aperdata.ai正式上线；面壁智能开源1.58-bit 端侧大模型 BitCPM-CAN

干不掉的DeepSeek！

内存暴涨80%！苹果华为小米却集体降价，谁在割肉求生？

腾讯“附近的工作”上线任务模式 零工匹配从“找岗”变“派单”

跨境支付服务商PPRO：跨境支付“隐性卡点”正持续导致消费者流失

MiMo-V2.5系列API永久降价 最高降幅达99%

Moltbot作者被Claude刁难后：MiniMax M2.1是最优秀的开源模型

小米跟了DeepSeek价格战！直降99%，全面对标

刚刚，中国AI闯入全球编程前二！前面只剩Claude

Python逆天改命！开源Hermes首次击败OpenAI Codex

开源模型89.2%的数学成绩，让闭源神话开始动摇

月吞100万亿Token！AI中转站OpenRouter赚爆了

马斯克曝光Grok 5！1.5万亿参数，偷师Cursor狂练编程

DeepSeek研究员让AI自己研究自己！AI执笔99%，6天搞定45页论文

武契奇到小米汽车工厂参访

小米亟待走出“等风来”的叙事逻辑

腾讯“附近的工作”上线任务模式零工匹配从“找岗”变“派单”

MiMo-V2.5系列API永久降价最高降幅达99%