打开网易新闻 查看精彩图片

一个AI对话工具,日均对话轮次超过50亿次,但用户真正用它完成的具体任务占比不到3%。

这是OpenClaw团队去年内部复盘时盯上的一个数字。理解自然语言的能力已经过剩,但把理解转化成行动的能力严重短缺。产品经理出身的开发者Adrien Castex(后文称卡斯特克斯)决定自己下场验证一个假设:如果让AI代理(AI Agent,即具备自主执行能力的智能程序)真正介入个人财务的日常操作,而不是仅仅充当聊天对象,体验会不会完全不同?

三个月后,FinancialClaw诞生。这个基于OpenClaw的扩展项目,核心功能简单到近乎朴素:记账、记收入、处理周期性付款、查账单。但测试用户反馈里出现频率最高的词是"意外"——不是功能有多惊艳,而是它居然真的完成了那些其他工具永远在"规划"的事。

从"听懂"到"做完":AI代理的断层

从"听懂"到"做完":AI代理的断层

卡斯特克斯在开发日志里写得很直白:"我们聊AI代理时总强调理解力,但理解只是入场券。"他举了个具体场景:用户说"我昨天在超市花了85块",一个能理解的AI会回应"已记录,类别为日用品",然后——就没有然后了。数据去哪了?下次怎么查?能不能和上周的支出对比?这些才是决定工具生死的细节。

FinancialClaw的设计从一开始就在对抗这种"半成品"体验。所有数据本地持久化存储(Local Persistence,即数据保存在用户设备而非云端),多货币支持,操作结果可预测。卡斯特克斯的底线是:代理可以负责解读意图,但涉及钱的事务绝不能即兴发挥。

这个区分很关键。市面上多数AI财务工具把重点放在对话流畅度上,用户问"我这个月花多了吗",AI回一大段分析,听起来专业,但用户想确认某笔具体支出时,发现刚才的对话根本没存下来。FinancialClaw反过来,对话是入口,但每一笔操作都落进结构化的本地数据库,后续查询基于真实存储而非语言模型的即时生成。

测试阶段的一个典型用例:用户输入"周五那笔打车费,帮我改成出差报销"。系统不是重写一段解释,而是定位到具体记录,修改分类标签,并反馈"已更新,该笔支出现计入'差旅-交通',本月差旅总额变更为1,247元"。

 friction:个人财务的隐形杀手

friction:个人财务的隐形杀手

卡斯特克斯在文档里反复提到一个词:friction(摩擦/阻力)。个人财务管理失败,极少是因为用户不懂预算原理,而是执行环节的阻力太大。

他列了四个具体场景,每个都指向同一个问题——动作中断:

记账时掏出手机、打开App、选分类、输金额,流程没走完,用户已经忘了要记什么;收入到账时随手记在手机备忘录,月底对账时散落在十几个不同位置;周期性付款(房租、订阅服务)依赖记忆提醒,漏掉一次就是滞纳金;想查本月支出时,需要手动汇总银行卡、支付宝、微信、现金多个渠道。

FinancialClaw的解法是把"记录"这个动作推到离事件发生最近的位置。支出录入支持手动输入和收据扫描两种模式。后者尤其针对一个具体痛点:用户拿到纸质收据时,传统流程是"先收着,回家再记",结果收据进了口袋就再没出来过。扫描功能让记录发生在收银台旁边,甚至支持多货币自动识别——这对经常出差的用户是刚需。

收入管理的设计更细。卡斯特克斯把"收入来源定义"和"实际到账记录"拆成两个动作。比如用户设置了"季度奖金"这个来源,系统会提示预期时间,但实际到账时需要确认金额和日期。这种区分解决了一个真实问题:预期收入经常变动,如果直接记死,后续对账全是误差。

周期性支出的支持被提到"项目早期就必须有"的优先级。订阅服务、分期付款、房租水电,这些不是边缘场景,是城市生活的基础设施。FinancialClaw的处理方式是模板化+提醒:用户定义周期和金额,系统在到期前推送确认,执行后自动归档。关键是"确认"环节保留了——系统不擅自扣款或标记完成,但把"记得处理"的 cognitive load(认知负担)降到了最低。

查询:从"对话"到"证据"

查询:从"对话"到"证据"

存储数据只是前半程。卡斯特克斯发现,多数财务工具的查询功能设计得像搜索引擎:用户输入关键词,返回匹配结果。但真实需求往往是计算型的——"这个月餐饮支出占比多少""相比上个月,哪类支出增长最快"" pending transactions(待处理交易)有哪些"。

FinancialClaw的查询层做了两件事。一是结构化输出,系统返回的不只是文字描述,而是带计算依据的摘要,比如"本月餐饮支出3,420元,占总支出28%,较上月增长47%,主要增量来自第2周的三笔商务宴请"。二是可溯源,每个数字都能点击展开,看到具体由哪些记录构成。

这个设计来自一个观察:用户不信任AI的"结论",但信任可以验证的"证据"。当系统说"你超支了",用户的第一反应是"哪部分",如果回答不了,工具可信度归零。

多货币支持在这个环节显得尤为重要。测试用户中约30%有跨境收支场景,汇率计算如果依赖外部API实时抓取,结果不可预期。FinancialClaw的方案是记录时锁定汇率,查询时显示原始币种和本币折算两个维度,避免"我明明记得那笔是100刀,怎么变成98了"的困惑。

规则与即兴的边界

规则与即兴的边界

卡斯特克斯在总结文档里写了一个他认为"越来越重要"的判断:AI代理的有用性,取决于自然语言灵活性与规则确定性的配比。

FinancialClaw的实践是分层处理。自然语言负责前端——理解用户想做什么,把"上周那笔吃饭的钱"解析成具体时间范围和交易类型。但一旦进入执行层,操作必须是确定的:修改哪条记录、更新哪个字段、计算逻辑是什么,全部预定义,不给语言模型留发挥空间。

这个边界在测试中暴露过一次风险。早期版本允许代理"智能推断"支出类别,比如用户说"买了杯咖啡",系统自动标为"餐饮"。结果出现大量误分类:便利店买的咖啡被标成"餐饮"而非"日用品",办公室咖啡机的扣款被标成"餐饮"而非"办公支出"。

修正方案是强制确认:系统可以建议类别,但必须用户点头,且支持自然语言修正,比如"不对,这是给客户买的,算商务招待"。学习机制会记录这种修正,但绝不自动泛化——避免"上次你说是商务招待,这次也应该是"这种过度推断。

本地优先的代价与收益

本地优先的代价与收益

数据存储选择本地持久化,在开发早期就排除了一些便利功能。比如跨设备同步、家庭成员共享、银行API直联,这些都需要云端介入。卡斯特克斯的取舍逻辑是:先证明"单人单设备上的完整体验"成立,再逐步扩展。

这个选择带来了意外的用户反馈。测试群体中,对隐私敏感的用户占比高于预期——他们并非技术极客,而是普通职场人,但经历过记账App的数据泄露或广告精准推送后,对"我的财务数据存在哪"有了本能警觉。本地存储成了差异化卖点,尽管它意味着用户要自行承担备份责任。

另一个副作用是性能。查询响应时间在本地数据库上稳定在200毫秒以内,对比依赖云端的同类产品,这个速度优势在频繁查询场景下感知明显。卡斯特克斯记录了一个极端用例:某用户在整理年度税务材料时,连续发起了47次复杂查询(多条件筛选+跨时间段汇总),全程无加载等待。

从工具到工作流:一个尚未完成的跳跃

从工具到工作流:一个尚未完成的跳跃

FinancialClaw目前仍被卡斯特克斯定义为"个人项目"而非产品。代码开源,文档详细,但没有任何商业化路径的披露。这个状态本身是一种信号:验证假设的阶段还没结束。

他列出的待解决问题包括银行对账单导入(OCR识别+自动匹配)、更灵活的预算设定(当前仅支持月度固定额度)、以及多用户协作的最小可行方案(比如夫妻共享部分账目但保留个人支出隐私)。

但这些扩展都指向同一个核心挑战:如何在保持"规则确定性"的前提下,处理更复杂的真实场景。银行对账单的格式千差万别,自动匹配必然涉及模糊判断;预算超支时的提醒策略,不同用户偏好差异极大;多用户协作更是天然冲突——自然语言的灵活性在这里可能成为 liability(负担)而非 asset(资产)。

测试用户的一个反馈被卡斯特克斯特别标记:"我用它三个月,最大的变化不是记账更快了,是我终于敢查账单了。"这个观察指向一个被低估的设计目标:降低心理阻力,比提升操作效率更难量化,但可能决定工具的长期留存。

FinancialClaw的GitHub仓库最近一次更新是在两周前,提交记录显示卡斯特克斯正在重构查询引擎的索引结构。没有发布预告,没有功能路线图。但issue区有一条用户留言获得了最多点赞:"求求加个自动识别发票PDF的功能,我现在每周手动输十几张报销单,快麻了。"

这条留言下面,卡斯特克斯只回了一个词:"在看了。"