实时AI有个死结:视觉模型按毫秒跑,语言模型按秒算。强行同步,视频卡成PPT,账单能吓死人。

Eric Maddox在KOS-MOS项目里解了这个题。他用YOLOv8n做视觉(6.2MB,纯CPU跑),用Gemini 2.5 Flash做推理,两者完全异步——视觉环永不停歇锁60帧,语言环只在触发时启动。没有GPU,没有原始视频帧喂给大模型,单用户月成本不到0.5美元。

打开网易新闻 查看精彩图片

核心设计叫"异步流解耦"(Asynchronous Stream Decoupling)。视觉和语言两条管道物理隔离,通过结构化上下文注入交换信息,而非互相等待。Maddox的测试数据:传统同步架构会把60 FPS拖垮到0.2 FPS,KOS-MOS保持视觉流无损。

这套方案瞄准的是"环境计算"(ambient computing)——AI持续感知环境,同时深度思考,两者互不阻塞。不是堆算力,是用架构换效率。

技术细节里有个反直觉点:YOLOv8n的COCO类泛化能力足够支撑通用场景识别,不需要为精度换更大模型。Gemini 2.5 Flash的上下文窗口和API稳定性被选中,而非追求最新版本。每个选型都在为"可部署性"让路。

开源实现已放出。对想落地多模态产品的团队,这提供了一条避开GPU军备竞赛的路径——前提是你的场景能接受"事件驱动"而非"流式连续"的交互模式。