做AI产品的都知道,推理引擎是个黑盒子——你喂进去prompt,它吐出来结果,中间发生了什么?不知道。就像叫了个外卖,骑手从商家到你家门口这段路,导航上只显示"配送中",具体堵在哪儿、绕了多远,一概看不见。
4月16日到18日,QCon全球软件开发大会北京站,蚂蚁集团可观测技术架构师刘杨打算把这个黑盒子拆开给你看。他的演讲题目很长:《让推理引擎可被"看见":大模型推理端到端Token级可观测工程实践》。核心就一件事:把观测精度从"请求级"下探到"Token级"。
为什么这事重要?2025年开源模型能力追平闭源,vLLM、SGLang这些推理引擎把成本打下来,Agent应用爆发。但新问题来了:推理链路涉及多语言、异构技术栈,传统微服务的可观测体系直接失效。请求粒度的Trace就像用卫星地图找自家钥匙——能定位到小区,找不到具体哪片草坪。
刘杨团队做的,是业界首个覆盖全链路、全栈、Token级的深度可观测体系。具体到技术层面,包括实时捕获候选Token的概率分布,把观测开销压到千分点级别,不采样也能高保真。换句话说,相当于给推理引擎装了显微镜,同时显微镜本身不挡光。
这套方案已经覆盖vLLM、SGLang等三大主流引擎,正在推动形成Trace统一可观测标准。当然,代价也有:深入引擎内部埋点,跨引擎、跨硬件的维护成本不低。
除了蚂蚁这场分享,QCon北京站还安排了20多个专题,从Agentic Engineering到AI驱动的技术债治理,100多位来自腾讯、阿里、百度、华为、小米、网易的技术专家带着真实落地案例到场。详情可以联系票务经理18514549229。
最后提个细节:刘杨在蚂蚁这几年,从告警、计算到元数据,可观测全技术栈都摸过一遍。这种背景的人去做大模型可观测,大概率不会只讲概念——他得自己维护那些埋点代码。
热门跟贴