宠物摄像头年省千万：台湾团队把AI芯片用到极致

赛博兰博

2026-05-06 23:54 ·北京

凌晨三点，你的手机突然震动——Furbo检测到狗狗在客厅焦虑踱步。这个瞬间背后，是数十万台设备同时运行的视觉语言模型，正在把"画面"翻译成"行为"。

台湾宠物科技公司Tomofun最近完成了一次关键迁移：把Furbo的AI推理从GPU搬到AWS自研芯片Inferentia2。结果很直接——成本下来了，实时警报没断。

为什么必须换芯片？

Furbo的核心能力依赖BLIP模型（一种视觉语言预训练模型）。这个模型要同时做三件事：看懂画面里的宠物、理解行为含义、生成自然语言描述。

但BLIP原本是为GPU设计的。Tomofun面临的真实困境是：数十万台设备24小时不间断上传视频流，"始终在线"的推理需求让GPU成本难以承受。

更棘手的是技术债——BLIP代码库已经针对PyTorch深度优化，重写成本极高。Tomofun需要一条中间路径：不换模型架构，只换运行载体。

拆解BLIP：三个模块各自为战

BLIP的架构由三个独立组件构成：图像编码器（Image Encoder）、文本编码器（Text Encoder）、文本解码器（Text Decoder）。

Tomofun的解法是把这三个模块拆开，分别包装成轻量级封装器（wrapper）。每个组件独立用torch_neuronx编译，再串成流水线。输入数据按顺序流过三个模块，最终输出行为判断。

关键细节在于"隔离原文本编码器"。Tomofun创建了一个TextEncoder类，它只是原始子模块的薄包装，标准化前向输出——只返回主张量。这让Neuron编译器能直接追踪和编译，而不触碰BLIP预训练好的内部逻辑。

这种模块化策略保住了两个东西：Inferentia2的兼容性，以及BLIP原本的模型能力。

从GPU到专用AI芯片：一场成本重构

迁移的底层逻辑很清晰。GPU是通用计算设备，擅长并行处理各种任务，但为AI推理支付了大量用不到的晶体管。Inferentia2是AWS为推理场景专门设计的芯片，晶体管预算全部投向矩阵乘法和数据搬运优化。

对于Tomofun这类"高并发、低延迟、持续运行"的场景，专用芯片的性价比曲线在规模点上越过GPU。这不是性能竞赛，是单位成本下的吞吐量竞赛。

具体实现上，Tomofun没有追求单点突破，而是确保整个流水线在芯片上跑通。图像编码器处理视频帧，文本编码器理解行为语义，文本解码器生成警报文案——三个环节全部落在Inferentia2的优化路径上。

宠物科技的隐藏战场：边缘还是云端？

Furbo的选择揭示了一个行业分歧。端侧AI派认为推理应该发生在摄像头本地，保护隐私、降低带宽。云端派则认为复杂模型必须上云，边缘只负责采集。

Tomofun的路线是混合态：摄像头做基础采集，复杂行为理解上云。这解释了为什么他们如此执着于云端推理成本——这不是技术偏好，是商业模式的生死线。

按Furbo的出货量推算，若单台设备日均触发数十次AI推理，年度推理调用量可达数十亿次。每次推理节省几厘钱，累积效应就是可观的毛利空间。

给硬件创业者的信号

这个案例的真正价值在于验证了一条路径：成熟模型+专用芯片+最小化改造=可控成本。

Tomofun没有重新训练BLIP，没有重写PyTorch代码，甚至没有调整模型结构。他们只是做了编译层面的适配，把计算图映射到更高效的硬件上。

对于手握视觉语言模型、被GPU账单困扰的创业者，这意味着迁移门槛比预期更低。AWS、Google、微软都在推自研AI芯片，芯片层面的差异化竞争正在打开成本优化的新窗口。

宠物行为检测是个垂直场景，但技术方案通用。安防监控、老人看护、工业质检——任何需要"看懂画面并理解语义"的持续推理场景，都可能复制这条路径。

Tomofun没有公布具体数字，但参考AWS官方公布的Inferentia2性价比数据，以及Furbo的硬件出货量规模，这次迁移的年度成本节省很可能达到数百万美元级别。在宠物科技这个利润率敏感的赛道，这笔省下的钱可以直接转化为产品定价权或研发投入。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴