上一篇我们搞定了Telegram接入,今天把Hermes Agent连进Discord。整个过程比想象中顺滑,尤其是那个"越用越聪明"的技能自动创建机制,值得单独拎出来说。

第一步:创建Discord机器人

打开网易新闻 查看精彩图片

进Discord开发者门户,左侧菜单点Applications,输入机器人名称,勾选协议后创建。进Bot栏目找到"Reset Token",点击获取令牌——这就是后面要用的钥匙。

终端运行hermes gateway setup,选Discord,粘贴刚才的Token。回Discord门户继续配置:左侧选OAuth2,拉到最底下勾选Bot,权限里至少给"Send Message"。复制生成的URL,新标签页打开,按提示授权进目标频道。

回到Hermes完成网关设置。建议开"Enable open access",这样频道里所有人都能直接对话,不用额外权限。

第二步:启动与基础对话

网关启动后,在Discord频道里直接@机器人或发消息即可。测试了几个场景,发现两个有意思的设计:

图像生成:用的是Minimax模型。第一次让它画图时,它自动创建了"minimax gen image"技能;后面再请求,直接调用已建好的技能。重复任务会自动沉淀为能力,官方说的"grow with you"就是这个逻辑。

音乐生成:同样简单提示词,Agent自己拆解步骤,最终输出可播放的音频文件。质量算"能听"级别,当背景音够用。

第三步:语音交互进阶

文字交互之外,TTS语音回复更实用。Discord里输/voice,选tts选项,Agent就会把文字回答转成音频播放。我绑了Minimax TTS的订阅,音色选择多一些。

想要实时语音对话,需要额外授权:回OAuth2勾选"Connect"和"Speak"权限,重新走一遍授权URL,让Bot加入语音频道。用户自己进左侧语音频道(比如general),在文字频道输voice,选对应选项即可开始双向语音。

几个值得注意的细节

记忆功能是默认开启的,跨会话能记住之前的对话内容。技能自动创建目前观察下来,主要针对重复请求的模型调用类任务——图像、音乐、特定API查询这类。如果三天两头让Agent干同一件事,它会越来越顺手。

Discord相比Telegram的优势在于语音频道原生支持,适合需要"边干活边问"的场景。Telegram更适合纯文字异步沟通。网关配置一次后,两边可以同时在线,按场景切换即可。