终于不用对着AI狂打「继续」了。
MiniMax刚推出的新Agent叫Mavis,名字挺有意思——MiniMax as a Jarvis。我试了个懒办法:丢给它一句话,让它基于官方博客做个HTML专题页,然后就去午睡了。结果28分钟后回来,它回了一句「完成了」。不是分段交付,不是中途请示,是真的一次跑完,图文并茂还能交互。
但侧边栏冒出一堆对话框,我才反应过来:这不是一个Agent在干活,是它自己组了个团队。
三个角色分工:Leader统筹、Worker执行、Verifier验收
Mavis的核心设计是Agent Team。Leader是第一话事人,负责收任务、拆目标、派活儿。Worker分角色干活——内容、设计、代码各管一摊。Verifier中间介入,从事实准确性、页面可读性、代码可运行性几个角度验收,最后出报告。
我的任务用了3个Worker:一个写内容,一个做设计,一个生成HTML。全程没让我说「继续」,没让我纠偏,内部自己开会、分配、迭代。最后交付的页面带星尘背景、粒子动效,还做了step时间线脉冲效果,甚至自己准备了下载链接。
单Agent做这事,我大概要说十几次「继续」,还得反复纠错。现在这些全被内部消化了。
价格没想象中离谱
多Agent第一反应是Token烧不起。MiniMax这次把Token Plan和Agent Plan合并了,一份订阅CLI、API、Agent全打通,M2.7、音乐、视频、语音模型都包含,Credits额度共享。之前双订的用户,额外送一个月。
单Agent的三大崩溃瞬间
这事之所以戳中痛点,是因为长程任务一直是AI用户的噩梦。MiniMax在技术博客里总结了三个典型场景:
一是Agent总偷懒。写三段就停,问「需要继续吗」,一晚上一半时间在打「继续」。二是长任务越跑越笨。一开始聪明,跑着跑着变成带一个容易分心的人,得不断追问「刚才的要求还记得吗」。三是冷暴力。IM里要么30秒丢个浅答案,要么等10分钟没反馈,不知道干到哪了。
根子不在模型能力,是架构问题。单Agent有上下文焦虑——训练超长任务成本太高,模型对「什么时候算做完」判断模糊,怕干崩Token就中途停下请示。即便狂灌上下文,底层注意力机制也会导致长上下文下Agent走神,只能压缩上下文,但会丢信息。更麻烦的是自我制衡困难,又当选手又当裁判,检查的是自己刚构造的东西。最后,长任务和当前对话绑在同一个上下文里,没法边干边聊。
Mavis的做法是换架构:让一群Agent互相PUA,用户只跟Leader说话就行。
热门跟贴