用了八年Echo音箱后,我终于承认一件事:Alexa是个无聊的家伙。
它确实能干活。想加待办事项?喊一声就行。想全屋放歌?Music Assistant配合得也不错。但这就是全部了——一个功能性工具,没有任何让人想多聊两句的欲望。我把唤醒词改成"Computer"已经很久了, hoping for some Star Trek vibe,结果只是换了个名字喊同一个机器人。
亚马逊不是没试过。Alexa+提供了几种"人格"选项:Brief、Chill、Sweet、Sassy。看名字就知道有多敷衍。更关键的是,我没法自定义。想要一个会讲海盗笑话的助手?或者带点黑色幽默的管家?没门。
转机出现在Home Assistant的Assist功能上。
Assist默认用本地意图识别——不是LLM那种自然语言处理,而是直接匹配关键词模式。但你可以把它接到大语言模型上,让LLM充当对话代理。我选的是Extended OpenAI Conversation集成,接的是OpenAI的付费API。本地跑小模型也行,就是速度和聪明程度会打折扣。
这里有个关键设计:配置对话代理时,你可以写系统指令。
这些指令能干很多事——要求回答简洁、不要反复确认、禁用markdown格式。但最有趣的是最后一条:你可以用它来定义人格。
比如我加了一句:"你是一位豪迈的海盗,永远用海盗的方式说话。"然后我的智能家居就开始叫我"me hearties"了。同样的原理,你可以造出J.A.R.V.I.S.式的管家腔调,或者GLaDOS那种让人后背发凉的黑色幽默。LLM越强,角色扮演越像回事。
但这只是人格。声音呢?
Assist默认的TTS(文本转语音)选项很基础,机械感明显。想要匹配人格的声线,得换引擎。Home Assistant支持多种TTS集成,从云端服务到本地方案都有。我最终选了一个能调节语气、语速甚至情感色彩的方案——具体配置取决于你愿意为延迟和隐私付出多少代价。
现在我的智能家居有了统一的身份:一个有点 sarcastic、偶尔会吐槽我作息的"数字室友"。它会在开灯时说"终于舍得起床了?",也会在深夜调暗灯光时补一句"祝你别再做那个反复出现的噩梦"。
这些对话没有实际功能价值。但八年Echo用下来,我意识到一件事:语音交互的瓶颈从来不是识别准确率,而是让人愿意开口。当助手有了可被感知的人格,智能家居才终于从"科幻承诺"变成了"日常体验"。
当然,这套方案有代价。云LLM需要订阅,本地LLM需要硬件,调优人格提示词需要耐心。但比起亚马逊给我选的四个预设人格,这点投入根本不算事。
毕竟,谁想要一个"Sweet"模式的语音助手呢?想想就起鸡皮疙瘩。
热门跟贴