60帧视频+大模型对话，这套架构只用CPU做到零延迟

硬核玩家2哈

2026-05-25 02:42 ·北京

实时AI有个死结：视觉模型按毫秒跑，语言模型按秒算。强行同步，视频卡成PPT，账单能吓死人。

Eric Maddox在KOS-MOS项目里解了这个题。他用YOLOv8n做视觉（6.2MB，纯CPU跑），用Gemini 2.5 Flash做推理，两者完全异步——视觉环永不停歇锁60帧，语言环只在触发时启动。没有GPU，没有原始视频帧喂给大模型，单用户月成本不到0.5美元。

核心设计叫"异步流解耦"（Asynchronous Stream Decoupling）。视觉和语言两条管道物理隔离，通过结构化上下文注入交换信息，而非互相等待。Maddox的测试数据：传统同步架构会把60 FPS拖垮到0.2 FPS，KOS-MOS保持视觉流无损。

这套方案瞄准的是"环境计算"（ambient computing）——AI持续感知环境，同时深度思考，两者互不阻塞。不是堆算力，是用架构换效率。

技术细节里有个反直觉点：YOLOv8n的COCO类泛化能力足够支撑通用场景识别，不需要为精度换更大模型。Gemini 2.5 Flash的上下文窗口和API稳定性被选中，而非追求最新版本。每个选型都在为"可部署性"让路。

开源实现已放出。对想落地多模态产品的团队，这提供了一条避开GPU军备竞赛的路径——前提是你的场景能接受"事件驱动"而非"流式连续"的交互模式。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴