月之暗面给出新答案，把更多词元转化为有效智能|优化器|推理|月之暗面|算法|词元|调用

当外界还在讨论词元价格时，竞争的核心已经转向词元本身的价值密度。

文｜胡嘉琦

ID | BMR2004

4月20日晚，月之暗面（Moonshot AI）正式发布并开源Kimi K2.6大模型。官方表示，该模型是其迄今能力最强的代码模型，长程编码能力显著提升，测试中可实现13小时不间断编码，编写或修改代码超4000行，能够支撑复杂系统的开发与优化；同时模型大幅增强了Agent自主化执行能力。

这是Kimi大模型应市场需求的快速迭代。随着强化学习和Agent范式逐渐进入主流，模型的工作方式发生了变化。它不再追求“一次性给出答案”，而是通过多轮交互逐步逼近结果；即使在单轮内部，也会展开更长的推理过程。

在大模型发展的早期，词元更像一种“文本计量单位”。一次提问对应一次输出，生成多长内容，就消耗多少词元，成本几乎等同于文本长度本身。如今，词元开始出现在中间环节，参与判断、计算，而不仅仅是最后的表达。这也让词元变成了生产资料和智能效率竞争的载体。

《商学院》记者从月之暗面处获悉，公司正在寻求把词元转化为智能的最优解，通过基础设施与模型训练深度耦合，每一项改进都以“复利”方式体现在智能效率上。同时，在这场词元效率的博弈中，商业世界也将面临分水岭。

词元：从资源变为持续消耗的生产资料

真正拉开差距的，已经不是某一个模型参数多大，而是这一整套系统，能不能把词元用在有效路径上。

词元开始进入“过程”。它既不只是结果，也不只是载体，而是构成推理路径的一部分。过去模型输出的是结果，现在输出的是一段“被计算出来的过程”。对应地，成本结构也在变化。此前词元主要消耗在训练阶段，推理成本相对可控；但当推理变成长链条、持续展开的过程之后，每一步“思考”都会产生新的词元。

结果是，成本从一次性投入，变成了随调用不断发生的支出。包括英伟达在内的基础设施厂商，已经把推理侧算力视为下一阶段的重点增长方向。词元也随之从“训练资源”，转变为一种持续消耗的生产资料。

再往下看，问题就不只是模型本身了。进入推理时代之后，真正的瓶颈开始转向系统层面：数据、模型结构、工程体系以及产品能力，需要一起协同工作。

数据质量决定方向是否走对。如果数据噪声高，模型就容易在错误路径上反复消耗词元；模型与服务结构影响执行效率，比如上下文管理是否合理、是否支持中断与重启，都会直接影响计算是否浪费；工程层面的能力，如路由、缓存、工具调用、评估，本质上是在“精细化使用词元”，避免重复计算、减少无效生成；而更高一层，组织能否把这些能力做成稳定的产品，并持续优化，决定了效率能否长期维持。

真正拉开差距的，已经不是某一个模型参数多大，而是这一整套系统，能不能把词元用在有效路径上。

工业和信息化部信息通信经济专家委员会委员盘和林的看法更为直接。他认为，精准调度是否能替代规模提升，关键还是看效果：同样的算力，能不能多产出内容，或者同样内容，能不能更省算力。至于技术路线，本质上还是两条路径并行，哪条更容易落地，就先用哪条。在实际操作中，算力效率和规模往往需要权衡，很难同时做到极致。

从更底层的角度看，中国社会科学院研究生院特聘导师柏文喜提出的“词元全过程参与”，可以理解为对计算单位的一次重新定义。在传统模式中，词元只是最终输出的一部分，现在，它被前移到推理过程中，成为每一步计算的基本单元。

这会带来几个变化。首先，原本像黑箱一样的计算过程开始被拆开，每一步都可以被追踪和优化；其次，注意力机制不再只是输入和输出之间的映射，而是贯穿理解、拆解、推理、验证的全过程；最后，词元成为统一的度量单位后，算力和内存的分配可以细化到具体步骤，从而实现更精细地调度。

成本结构也因此被改写。算力不再平均分配，而是集中到关键节点；词元级别的调度可以减少大量无效计算，尤其是在长文本生成中，避免资源消耗在重复或低信息内容上。同时，模型完成任务也不再依赖简单堆词元，而是依赖更有效的推理路径。

结果很直接：要么在同样预算下得到更好的结果，要么用更低成本完成同样复杂的任务。在这个阶段，真正稀缺的能力，不是有没有模型，而是能不能把模型稳定、低成本地跑起来。

Token Efficiency：从算力竞争到“智能密度”竞争

算力决定产能，数据决定供给，而效率决定最终产出。

当词元成为核心之后，竞争的焦点也在移动。

行业大致经历了三个阶段：先拼算力，再拼数据，现在开始拼效率。月之暗面创始人兼CEO杨植麟提出的“Token Efficiency”，主要看每一个词元到底值不值。

在总量有限的情况下，单位价值越高，模型就越有竞争力。这也带来一个有点反直觉的结论：训练更快，并不会直接提高能力上限。只要词元总量不变，上限基本不会变。速度解决的是时间问题，而效率决定的是能力本身。行业里常说的“30T高质量词元等效60T”，本质就是这个逻辑。

在这个框架下，词元逐渐具备了生产要素的属性：算力决定产能，数据决定供给，而效率决定最终产出。

《商学院》记者从月之暗面处获悉，公司通过多种方式寻求把能源转化为智能。首先，Muon优化器取得突破。所谓“优化器”，可以理解为在训练模型时用来调整参数、让模型不断变好的方法；首次在万亿参数模型上验证二阶优化器Muon的可行性，而“二阶优化器”相比常见方法，会额外利用“观测趋势的变化”来更新参数，理论上更精准但也更难实现。Muon还带来了至少2倍的Token Efficiency提升。

与此同时，Day-0 Co-Design成为另一条关键路径。从项目一开始，就让基础设施（如算力系统、训练框架）和模型算法一起设计、一起优化，而不是先做模型、再去适配算力。这种“同时设计”的优势在于，每一个环节的小优化，都会在整体系统中被放大，形成类似“复利”的效果，让效率持续累积提升。

在这样的技术路径下，Kimi加快了迭代节奏：从K2，到更强调推理的K2 Thinking，再到K2.5和K2.6，模型能力在多个基准测试中不断提升，逐步逼近甚至超过一些顶尖闭源模型。

这些变化放在一起，其实都在回答同一个问题：算力有没有被浪费。相比“用了多少词元”，“词元用得好不好”变得更重要。当外界还在讨论词元价格时，竞争的核心已经转向词元本身的价值密度。

从“生成内容”到“完成任务”

重点不再是单轮输出的质量，而是能否把“思考、检索、工具调用、任务拆分、结果交付”连接成一个可以闭环运行的过程。

这种变化，最终体现在商业层面。

过去，大模型之间的较量，更多停留在“谁的回答更流畅、更像人”；而现在，竞争正在转向另一件更直接的事：谁能把事情真正做完。

以Kimi的演进为例，其路径已经从强调思考能力，逐步过渡到引入agentic（智能体化）与swarm（集群/多智能体）结构。其重点不再是单轮输出的质量，而是能否把“思考、检索、工具调用、任务拆分、结果交付”连接成一个可以闭环运行的过程。

当系统能够同时调度多个Agent、进行多轮工具调用时，竞争的核心也随之改变：从“答案好不好”，转为“完成一件事要付出多大成本”。计费方式也在发生对应变化，底层依然按照词元消耗计量，但在应用层，已经开始向“按任务、按结果”过渡。

汇生国际资本总裁黄立冲把这一变化归结为ROI逻辑的转移。在他看来，关键不再是单纯压低词元使用量，而是把词元投入到更有价值的环节中。由此，分层调度成为一项基础能力：简单请求即时响应，复杂问题才进入推理流程，而更高价值的任务，再调用工具或多Agent协同完成。

他的判断也把问题拉回到更具体的商业现实中。在大量真实场景里，竞争力并不直接来自通用大模型本身，而取决于企业是否拥有自己的数据体系和Agent系统。无论是股票分析、投研平台，还是对冲基金管理，真正的能力体现在系统如何调用数据、如何拆解问题、如何组织决策路径。这些能力与大模型有关，但并不完全依赖大模型；与算力相关，但更关键的，是整个系统是否能够被有效调度。

柏文喜则从商业化角度进一步拆解了这一路径的意义。在他看来，以词元为核心的技术路线，并不只是性能优化，而是在多个关键场景中形成了可以直接转化为商业价值的优势。

柏文喜指出，Kimi在这方面具有优势。首先，是长上下文场景中的效率优势。Kimi在超长文本处理上的积累，使其在文档分析、代码理解、多轮复杂对话等任务中，可以对词元进行更细致地分配与控制。当不少模型仍通过增加算力来支撑上下文长度时，这种结构上的优化路径，能够在相同效果下降低成本，或者在相同成本下提升效果，这种差异在企业级复杂任务中会被不断放大。

其次，是对Agent生态的适配能力。由于词元贯穿推理全过程，在多步推理、工具调用和结果验证等环节中，可以维持一致的计算框架，更容易支持复杂任务的拆解与执行。当Agent开始进入真实业务流程，这种从底层机制到应用形态的匹配，会更直接地转化为产品能力。

最后，是企业级API的经济性。对B端客户来说，词元成本往往直接决定一项应用能否跑通商业闭环。更高效的调度意味着，要么可以以更低价格提供同等能力，要么在相同价格下提供更高稳定性和服务质量，这在采购决策中具有非常现实的影响。

在这一基础上，词元的角色还在继续变化。柏文喜认为，随着词元逐渐成为AI系统中的核心生产要素，行业可能围绕它建立新的标准体系。定价方式不再只是简单按数量计费，而可能转向强调有效性的计量，例如只计算真正带来信息增益的部分；在流通层面，高质量的推理路径、经过验证的思维过程，可能沉淀为可复用的资源，甚至具备交易属性；而在评价体系上，关注点也会从参数规模与训练算力，转向单位词元所带来的信息增益、推理准确率以及任务完成度。

从更长周期看，词元效率很可能成为未来2—3年的关键分水岭，但这种差异，并不会简单演化为“强者通吃”。

柏文喜提出，对于头部公司来说，效率优化会放大其既有优势，通过算法、硬件与数据的协同形成正循环，把效率转化为成本与价格优势；而对于中小团队而言，虽然开源模型降低了门槛，但真正的效率提升依赖全栈能力，难度更高，机会更多集中在垂直场景中的局部突破。

这种变化也在重塑产业结构。算力层的竞争，将从比拼资源规模，转向比拼单位词元的性价比；模型层可能出现分化，一类追求极致性能，另一类强调效率与成本；应用层则会因为词元成本下降，催生出更多原本难以成立的高消耗场景；而工具链层，围绕压缩、蒸馏与调度的优化能力，也可能逐步发展为独立赛道。

最终改变的，并不是规模本身，而是规模的含义。未来的“领先”，不再只是参数更大、算力更强，而是能否在相同资源下，把更多词元转化为有效智能。行业也由依赖资源堆叠的阶段，进入强调精细化计算与系统效率的阶段。

如今，行业的竞争逻辑正在变化。领先不再只是规模问题，而是效率问题。模型提供潜力，系统决定结果，而词元像一把统一的刻度，贯穿其中，它既衡量成本，也决定效率，最终影响谁能在同样资源下完成更多真实世界的任务。