去年有个做SaaS的朋友跟我吐槽:他的团队试了7款AI Agent工具,最后全弃了。问题不是不够智能,是太智能了——任务跑完,只剩一个结果,中间怎么崩的、去哪查的资料、为什么选A不选B,全黑箱。审计要翻日志,复盘要凭记忆,知识沉淀更是无从谈起。
这大概是AI Agent最讽刺的悖论:帮你省时间的工具,反而制造了新的信息黑洞。
Notion MCP挑战赛上有个叫Rio的项目,解法粗暴但有效——让AI把脑子里的每一步都写进Notion,实时、结构化、可搜索。不是事后导出,是边想边写。用户说话下指令,Rio的多个Agent分工执行:Orchestrator(调度器)拆任务、UI Navigator(界面导航器)操控浏览器、Creative Agent(创作代理)写报告。每个动作同时落库,像给AI装了台直播摄像机。
开发者形容得挺准:Notion不是插件,是Rio思考的介质。
Agent的黑箱病,用"实时笔记"治
现在的AI Agent有个通病:来无影去无踪。你丢过去一个需求,它后台启动虚拟机、调API、跑脚本,最后扔给你一份总结。看起来高效,实则隐患一堆——出错时没法溯源,合规时拿不出证据,团队协作时接不上上下文。
Rio的架构设计直接针对这个痛点。每个Agent配备一个NotionMemory模块,logger.info()的每一行都同步写成Notion数据库的一行。Orchestrator认领任务时写一条,UI Navigator点击浏览器按钮时写一条,Creative Agent生成段落时写一条。状态、详情、时间戳,全结构化存储。
代码片段显示,日志写入是异步await调用,不阻塞主流程。这意味着性能损耗可控,但信息密度暴增。用户随时打开Notion,能看到Agent此刻正在查哪个网页、卡在哪一步、用了什么关键词。
这种设计对产品经理出身的团队尤其有杀伤力。我们太熟悉那种场景:演示时AI表现完美,客户买单后现场翻车,然后双方对着一个黑盒互相甩锅。Rio把过程透明化,本质上是把技术债务前置消化。
MCP协议:让Notion从仓库变大脑
Rio用到了MCP(Model Context Protocol,模型上下文协议),这是Anthropic去年推出的开放标准,想让AI模型安全地连接外部数据源。Rio的实现分两层,每层对Notion的用法都不一样。
第一层是结构化日志(Structured Logging)。纯写入,单向流,解决"留下了什么"的问题。第二层更激进——Notion作为推理工具(Reasoning Tool),Agent执行中主动查询和写入,双向交互。
具体看代码:Creative Agent写报告前,会先调用notion-search翻一遍现有页面,避免重复造轮子。Orchestrator则持续轮询Task Queue数据库,像外卖骑手刷派单大厅。MCPToolset初始化时显式声明了三个工具:搜索、创建页面、查询数据库,权限粒度很细。
这里有个产品细节值得玩味。Rio没有让Agent直接操作Notion的块级结构(blocks),而是封装在数据库(database)层面。数据库有固定schema,比自由文档更适合机器读写,也更容易后续做分析、看板、自动化。换句话说,开发者预判了用户"事后想怎么用这些数据"的需求。
零配置上手:OAuth流程里的用户洞察
技术Demo常犯一个错:演示时惊艳,部署时崩溃。Rio的接入流程明显受过产品经理的打磨。
用户点击"Connect Notion",走完整的OAuth 2.0 + PKCE流程。PKCE(Proof Key for Code Exchange)是移动端常用的安全扩展,防止授权码被截获。Rio把它用在桌面Agent场景,说明团队对token泄露风险有警觉。
授权完成后,Rio在session内存中保管token,不硬编码任何数据库ID。然后自动调用auto_setup(),在用户工作区创建两个数据库:Rio Logs(运行日志)和Rio Task Queue(任务队列)。零手动配置,开箱即用的背后,是对"用户懒得读文档"这一人性的尊重。
最后WebSocket初始化,把NotionMemory和MCPToolset注入各Agent。整个流程三步:登录、授权、开用。对比某些需要复制粘贴数据库ID、手动调权限的竞品,Rio的漏斗转化率应该会好看很多。
声音交互:为什么是语音,以及为什么现在
Rio的入口是语音输入,这在AI Agent里不算主流。多数产品选择聊天窗口或API调用,语音被视为"锦上添花"的功能。
但Rio团队可能算过一笔账:他们的目标场景是"用户说话,Agent执行复杂桌面任务"。如果用户已经腾不出手(比如在做饭、开车、或者只是懒得切换窗口),语音是唯一的自然交互方式。更关键的是,语音输入强制简化了指令结构——用户不会粘贴三千字Prompt,只会说"查一下竞品A最近三个月的价格变动,做个对比表"。
这种约束反而是好事。Agent接收到的任务边界清晰,Orchestrator拆解时歧义更少。Rio的架构图显示,语音输入后直接进入调度层,没有冗长的意图识别模块,说明团队对当前ASR(自动语音识别)的准确率有足够信心。
一个推测:Rio可能用了Whisper或类似的端到端模型,而非传统的NLP流水线。这解释了为什么他们能跳过"语音转文字→语义解析→任务映射"的复杂环节,直接把语音当结构化输入用。
多Agent协作:没有中央大脑,只有分工协议
Rio的架构图里有三个核心Agent:Orchestrator、UI Navigator、Creative Agent。没有"主控AI",只有基于Notion状态的松耦合协作。
Orchestrator盯着Task Queue,有新任务就认领,决定派给谁。UI Navigator收到指令后,操控浏览器完成网页交互——点击、输入、滚动、截图。Creative Agent则负责最终的内容产出,写报告、做总结、生成可交付物。
这种设计和Single-Agent架构有本质区别。后者把所有能力塞进一个模型,上下文窗口爆炸,幻觉概率陡增。Rio的拆分让每个Agent专注窄域,Prompt可以更精确,失败时也容易定位。Notion在这里充当了一个低成本的消息总线,Agent之间不直接通信,而是通过数据库状态间接同步。
代码片段里有个细节:UI Navigator的每一步浏览器操作都带action和status字段。这意味着用户能看到"正在点击搜索框""输入关键词'AI Agent'""等待页面加载"这样的细粒度状态。对于耗时任务,这种反馈能显著缓解焦虑——你知道它没死,只是慢。
Notion的野心:从笔记软件变成AI基础设施
Rio选择Notion而不是自建存储,有个务实的考量:Notion已经渗透了目标用户的工作流。对于25-40岁的科技从业者,Notion往往是项目管理的默认界面。Agent的输出直接写进熟悉的环境,学习成本趋近于零。
但更深一层,Rio验证了Notion作为"AI可读写基础设施"的可能性。MCP协议的出现,让Notion从"人记笔记的地方"变成"机器也能读写的知识库"。这对Notion公司是巨大的战略利好——他们不需要自己做AI,只需要成为AI最愿意连接的数据层。
对比Obsidian、Roam Research等竞品,Notion的数据库结构和API成熟度更适合机器交互。Rio的开发者提到,他们试过其他方案,最后卡在"怎么让Agent高效查询历史记录"上。Notion的搜索API和数据库查询能力,恰好解决了这个痛点。
一个值得观察的信号:Rio之后,Notion MCP挑战赛涌现了几十个类似项目,方向从代码生成到财务分析不等。这说明"AI+Notion"的组合已经被开发者社区认可,接下来要看Notion官方会不会把MCP支持做成一级功能,而非依赖第三方集成。
产品化的隐患:当日志爆炸时怎么办
Rio的Demo很干净,但真实场景会暴露压力测试的问题。假设用户让Rio监控某个网站的价格变动,每小时执行一次,每次产生50条日志。一个月下来就是3.6万行记录,Notion数据库的查询性能会不会崩?
更麻烦的是信息检索。结构化日志解决了"有没有"的问题,但没解决"怎么快速找到"。Rio目前的实现依赖Notion原生的搜索和过滤,当数据量上去后,用户可能需要更高级的查询能力——比如"找出所有UI Navigator在amazon.com上耗时超过10秒的操作"。
开发者在文档里提到,他们考虑过导出到专用分析工具,但为了保持"零配置"的体验,暂时搁置了。这是一个典型的产品权衡:易用性 vs. 可扩展性。Rio选择了前者,但留下了技术债。
另一个隐患是token安全。Rio把Notion访问令牌存在session内存,服务重启就丢失,需要重新授权。这对个人用户是保护,对企业用户可能是麻烦——IT部门通常希望token能持久化、可审计、可轮换。Rio的OAuth流程没有暴露refresh token的机制,长期使用的稳定性存疑。
竞品对比:为什么Rio不是又一个AutoGPT
2023年AutoGPT爆火时,很多人以为AI Agent的时代来了。结果是一地鸡毛:任务跑飞、成本爆炸、输出不可用。核心问题是AutoGPT让单个模型既当指挥又当执行,上下文管理混乱,没有可靠的外部记忆。
Rio的解法是把记忆外包给Notion,把执行拆给专用Agent。这不是架构炫技,是对AutoGPT失败经验的直接回应。Multi-Agent + 外部结构化存储,成了新一代Agent项目的标配设计。
对比最近推出的Devin(AI软件工程师)和OpenAI的Operator,Rio的定位更轻量、更开放。Devin封闭在自有环境,输出格式固定;Operator绑定ChatGPT生态,数据沉淀在OpenAI。Rio选择寄生在用户的Notion工作区,数据所有权清晰,迁移成本可控。
代价是Rio没有自己的模型,完全依赖底层能力。如果GPT-5或者Claude 4升级后API行为变化,Rio需要跟进适配。这是一种战略选择:做薄中间层,快速跟随,而不是重资产押注单一模型。
开发者背景:3人团队的产品直觉
挑战赛提交页面没有透露团队规模,但从代码结构和文档完整度推测,Rio是3-5人的小团队作品。特点是工程实现扎实,产品文档比技术文档更用心——这在黑客松项目里不多见。
一个细节:Rio的GitHub仓库没有放架构图,而是放了一段"30秒理解Rio"的语音交互脚本。场景是用户说"帮我准备明天的产品评审会",Rio自动查日历、拉需求文档、对比竞品数据、生成讨论要点。这种叙事方式比技术参数更能打动评委和使用者。
团队显然理解Notion MCP挑战赛的评选标准:不是技术最难,而是最能让Notion用户"啊哈"一下。Rio的"实时笔记"概念,恰好击中了Notion核心用户群的痛点——他们已经在Notion里管理一切,现在想要AI也遵守这个秩序。
落地场景:谁会用,以及用来干什么
Rio的Demo场景偏向知识工作者:市场研究、竞品监控、报告生成。但架构本身不限于此。UI Navigator的存在,意味着任何浏览器能完成的操作都可以自动化——填表、抢票、比价、甚至游戏挂机。
一个可能的延伸方向是电商运营。卖家需要监控竞品价格、跟踪库存变化、批量更新商品信息,这些任务规则明确、重复性高、需要审计痕迹。Rio的Notion日志正好满足合规需求,语音触发则适合移动场景。
另一个场景是个人知识管理。比如"把我过去三个月收藏的关于RAG(检索增强生成)的文章,按应用场景分类,输出一份学习路径"。Rio可以自动打开Notion的Web Clipper数据库,读取标签,调用搜索补全信息,最后生成结构化页面。这里的价值不是省时间,是把"稍后读"真正变成"已消化"。
企业场景的门槛更高。Rio目前的OAuth流程要求每个用户单独授权,无法做组织级别的集成。如果Notion企业版能支持管理员预授权第三方应用,Rio的部署成本会大幅下降。
技术债与未来:Rio还需要什么
Rio的当前版本是挑战赛提交作品,距离生产环境还有距离。优先级最高的可能是错误处理——Demo里所有操作都标记"done",真实世界会有超时、验证码、页面结构变化导致的Selector失效。
其次是成本优化。Rio的多Agent架构意味着多次LLM调用,加上Notion API的速率限制,高频使用时的账单可能不好看。开发者提到考虑过本地小模型处理简单任务,但还没实现。
长期看,Rio的真正竞争壁垒不是技术,而是用户数据沉淀。当用户的Rio Logs积累到足够多,迁移到其他Agent平台的成本会陡增。这是Notion生态的粘性逻辑,Rio只是借道而行。
一个开放的问题是:如果Notion官方推出类似的Agent功能,Rio怎么办?参考Figma收购Diagram、Notion自己收购Cron的历史,小团队的最佳出路可能是被招安。但在那之前,Rio需要证明自己能跑通商业化——比如按任务量收费,或者卖企业版的安全合规套件。
Rio的开发者最后更新文档时,加了一句用户反馈:"我终于知道我的AI在干什么了。"这句话或许比任何架构图都更能说明价值。当AI Agent从黑箱变成玻璃房,信任的建立才是规模化应用的开始。
热门跟贴