一个人,670次代码提交,搭出带OCR发票识别、银行对账、多租户架构的完整金融平台。作者本职是DevOps工程师,不是科班全栈开发。过去一年他靠AI完成了YourFinanceWORKS——这套系统现在能跑自托管、AI驱动的财务全流程。
他测遍了市面上能用的模型,免费的、付费的、本地部署的。这篇是他的无赞助实测:哪些真能干活,哪些只是看起来很美。
免费层:Gemini 2.5 Pro 是隐藏的甜点
Google的Gemini 2.5 Pro是他心中免费 coding 的最佳选项。响应快、输出质量扎实,能处理真正的工程问题而非玩具示例。他甚至半开玩笑怀疑Windsurf是不是跟Google有合作,免费层做得过于精致。
开发者预算有限的话,从这里开始。DeepSeek V3也值得留在工具箱里——快速生成代码和样板够用,复杂重构不是它的强项。
本地模型让他最失望。隐私、零API成本、完全可控,这些诱惑真实存在,输出质量也还过得去。但速度彻底毁了工作流:调试多租户隔离问题时,等30秒以上才能拿到回应,思维链条断得干干净净。消费级硬件跑本地模型,日常严肃开发还不现实。
OCR这条线:80%准确率=规模不可行
YourFinanceWORKS的核心功能之一是收据和发票的OCR处理。他拿开源方案Tesseract(光学字符识别)实测:准确率约80%。听起来还行?真到财务对账场景,20%错误率意味着每5份文档就要手工修正1份,规模上去后完全不可接受。
对比来看,Anthropic最便宜的付费模型Claude Haiku出错明显更少。不是零失误,但差距实打实。
Mistral和DeepSeek R1被他归为"研究型助手"——长文本阅读、推理任务有惊喜,Mistral的推理能力尤其被低估。但写代码的主战场,它们替代不了专业coding工具。
付费层:Gemini Advanced的前后端分裂
他掏钱订阅过几个月Gemini Advanced。结论很分裂:
前端场景是Gemini的舒适区。布局直觉强,组件设计干净。React/TypeScript技术栈里做仪表盘、数据表格、表单流程,输出结构 consistently 合理。工作重心在前端的话,Gemini值得认真考虑。
后端深水区是它掉链子的地方。调试棘手的FastAPI问题、重构复杂的多租户数据库隔离、梳理Kafka事件流——回应能摸到问题表面,却抓不住背后的意图。他得反复补充上下文,而更有经验的模型本该自己补全这些。
最扎心的发现:AI能加速,但不能替你做架构决策。多租户隔离怎么设计、OCR准确率达不到生产标准时怎么兜底、事件流和状态一致性怎么权衡——这些没有现成答案,模型给的建议往往停留在"看起来对"的层面。
670次提交里,大概一半是AI生成的代码被推翻重写。不是模型变笨了,是他对"什么能跑"和"什么能扛住真实负载"的理解在进化。AI把开发门槛砍到了脚踝,但生产环境的坑,你得自己摔过才认得出来。
他最后把系统开源了。GitHub仓库的issue区里,有人问:如果2024年重新选模型组合,你会改什么?他的回复还在编辑中——这意味着故事还没完,而读者的选择可能完全不同。你会押注哪个模型跑自己的副业项目?
热门跟贴