蚂蚁把大模型推理"扒光"了：Token级可观测，开销仅千分点|token|全模态|刘杨|卫星|引擎|模型推理|蚂蚁|黑盒子

做AI产品的都知道，推理引擎是个黑盒子——你喂进去prompt，它吐出来结果，中间发生了什么？不知道。就像叫了个外卖，骑手从商家到你家门口这段路，导航上只显示"配送中"，具体堵在哪儿、绕了多远，一概看不见。

4月16日到18日，QCon全球软件开发大会北京站，蚂蚁集团可观测技术架构师刘杨打算把这个黑盒子拆开给你看。他的演讲题目很长：《让推理引擎可被"看见"：大模型推理端到端Token级可观测工程实践》。核心就一件事：把观测精度从"请求级"下探到"Token级"。

为什么这事重要？2025年开源模型能力追平闭源，vLLM、SGLang这些推理引擎把成本打下来，Agent应用爆发。但新问题来了：推理链路涉及多语言、异构技术栈，传统微服务的可观测体系直接失效。请求粒度的Trace就像用卫星地图找自家钥匙——能定位到小区，找不到具体哪片草坪。

刘杨团队做的，是业界首个覆盖全链路、全栈、Token级的深度可观测体系。具体到技术层面，包括实时捕获候选Token的概率分布，把观测开销压到千分点级别，不采样也能高保真。换句话说，相当于给推理引擎装了显微镜，同时显微镜本身不挡光。

这套方案已经覆盖vLLM、SGLang等三大主流引擎，正在推动形成Trace统一可观测标准。当然，代价也有：深入引擎内部埋点，跨引擎、跨硬件的维护成本不低。

除了蚂蚁这场分享，QCon北京站还安排了20多个专题，从Agentic Engineering到AI驱动的技术债治理，100多位来自腾讯、阿里、百度、华为、小米、网易的技术专家带着真实落地案例到场。详情可以联系票务经理18514549229。

最后提个细节：刘杨在蚂蚁这几年，从告警、计算到元数据，可观测全技术栈都摸过一遍。这种背景的人去做大模型可观测，大概率不会只讲概念——他得自己维护那些埋点代码。

蚂蚁把大模型推理"扒光"了：Token级可观测，开销仅千分点