智能家居的AI功能越来越依赖云端,但一位技术爱好者决定走另一条路。他用完全本地运行的大语言模型,试图复刻Ring门铃的AI对话功能——结果部分成功了。

这套系统的核心需求很明确:当访客按门铃且家中无人时,门铃要主动开口说话,询问对方姓名和来意,听懂回答,再做出相应回应。用云端大模型实现这个流程相对 straightforward:语音转文字、大模型生成回复、文字转语音,三个环节都有成熟的云服务可用。

打开网易新闻 查看精彩图片

但本地运行的挑战在于硬件瓶颈。作者使用的是Reolink电池版智能门铃,搭配Home Assistant智能家居平台。为了绕开云端,他选用了三个关键组件:Piper负责文字转语音,能在树莓派4上流畅运行;Whisper处理语音转文字,同样完全本地;Ollama作为大模型运行框架,通过Home Assistant插件接入。

整个链路跑通后,实际效果受制于模型能力。较弱硬件只能运行更小的模型,而门铃对话场景需要理解口语化的访客回应、保持上下文连贯、还要控制响应延迟——这些对小模型都是硬仗。作者坦言"部分成功",暗示流畅度和准确率与云端方案仍有差距。

这个实验的价值在于验证了技术路径的可行性。随着端侧模型效率提升,本地AI concierge或许会成为隐私敏感用户的新选择——毕竟谁也不想自己的门铃对话被传到第三方服务器。