AI Agent 的 demo 和 production 之间的差距,大概就像会煎蛋和能开餐厅那么远。一个开发者最近花了整整四周,用同一套任务、同一批工具、同一个目标,在 LangChain、CrewAI、AutoGen 和 LlamaIndex 四个框架上各搭了一遍 Agent——结果发现,"好用"和"能用"完全是两回事。

他的测试标准很实际:找信息、推理、执行动作、返回报告。听起来像基础课作业,但真跑起来,每个框架都在不同环节掉链子。有的抽象层太厚,debug 像猜谜;有的多 Agent 协作逻辑混乱,消息传递靠运气;还有的文档写着"简单上手",实际配置项多到能开 Excel。

他最后只留了一句评价:「Building AI agents is the easy part. Building one that actually works in production is not.」这句话被顶到评论区最高赞,下面跟了 200 多条"点了"——显然被坑过的人不在少数。

最终胜出的是 LlamaIndex。不是因为它功能最全,而是它的检索-生成链路最稳,出错时能定位到具体哪一步。其他三个框架要么把简单问题复杂化,要么把复杂问题藏起来。开发者说,选框架就像选队友,demo 时全员神仙,真上战场才知道谁会消失。

他在 GitHub 放了四份完整代码对比,Star 数三天破了 800。评论区有人补刀:最讽刺的是,这四个框架的官方示例都能跑通,但稍微改个需求就集体沉默——生产环境的脏数据、超时、权限问题,文档里一句没提。