1人写出6万行代码，Gemini在UI上栽了跟头|gemini|代码|多租户|工作流

670次代码提交，一个人，一套完整的SaaS财务系统。这个数字放在三年前，足够一个5人团队干上大半年。但作者Daniel不是"正经"全栈出身——他是DevOps工程师，主业是维护基础设施，写业务代码属于跨界作业。

让他完成这个看似不可能任务的，是一整年对AI模型的密集试用。不是浅尝辄止，是真金白银的付费测试，是生产环境的压力检验。他的结论很直白：没有单一模型能通吃，但组合得当，一个人确实能扛起过去需要小团队的工作量。

免费层：Windsurf的隐藏实力

Daniel的筛选逻辑很简单——先白嫖，再付费。在免费模型里，他发现了一个被低估的选项。

Windsurf的免费层是他眼中" genuinely the best free option"。响应快、输出质量扎实、能处理真正的工程问题而非玩具示例。他甚至半开玩笑地怀疑，这产品是不是跟Google有某种合作，免费层打磨得过于精致了。

对于预算有限的开发者，他的建议直接：从这里开始。

Mistral同样留在他的轮换清单里。处理开发任务足够用，复杂重构不是强项，但快速生成代码和脚手架绰绰有余。

本地模型则让他彻底放弃。Llama 3.1 70B的输出质量尚可，隐私和零API成本的诱惑也真实存在。但速度摧毁了一切——调试多租户隔离问题时，每次等待30秒以上的响应，思维链条被生生打断。"Local models will get there, but they're not there yet for serious daily use on consumer hardware."

OCR生死战：80%准确率为何不够

YourFinanceWORKS的核心功能之一是收据和发票的OCR识别。这直接决定产品能否商用。

免费层的OCR给了他一个残酷的数字：80%准确率。听起来及格，换算成财务场景就是每5份文档就有1份需要人工纠错。规模化的财务系统里，这个误差率等于不可用。

对比测试更扎心。Anthropic最便宜的付费模型Claude Haiku，错误率明显更低——不是零失误，但差距足以影响采购决策。

这个发现推翻了"免费够用"的幻想。在精度敏感的场景，付费门槛绕不过去。

付费层的分野：前端与后端的模型战争

Gemini Advanced是Daniel为数不多持续付费的选项，但他对它的评价呈现诡异的两极。

UI工作流是它的统治区。Gemini对布局和组件设计有近乎本能的嗅觉，React/TypeScript前端——仪表盘、数据表格、表单流程——持续产出干净、结构良好的代码。前端占比高的项目，Gemini值得认真考虑。

但一旦触及深层后端逻辑，气质骤变。调试棘手的FastAPI问题、重构复杂的多租户数据库隔离、推演Kafka事件流时，回应始终停留在问题表面，摸不到背后的设计意图。Daniel不得不反复补充上下文，而资深工程师本该一次捕捉到的隐含需求，Gemini屡屡遗漏。

这种"前端天才、后端平庸"的分裂，最终让他转向组合策略：Gemini负责界面，Claude系列扛住业务逻辑。

多模态需求则指向另一个方向。收据解析需要同时处理图像和文本，GPT-4o在这个交叉地带表现稳定。不是每项任务都最优，但综合可靠性让它成为OCR环节的固定选项。

被低估的细节：上下文窗口的隐性成本

Daniel没有明说的一个观察，藏在代码提交频率里。

670次commit分布在12个月，月均56次。作为副业项目，这个密度意味着AI确实压缩了迭代周期。但更重要的是提交内容的分布——前期大量基础设施和架构调整，后期转向功能打磨和边界case处理。

这种曲线暗示了AI辅助开发的隐藏门槛：模型能快速生成"能跑"的代码，但让代码在复杂场景下"跑得稳"，仍然依赖人类对业务边界的定义。多租户架构的隔离策略、银行对账的异常处理规则、BI层的指标计算逻辑——这些没有现成答案，AI只能加速实现，不能替代决策。

他的技术栈选择也耐人寻味。Python/FastAPI而非Node，React+TypeScript+Vite而非Next.js全家桶。偏向可控、偏向显式、偏向在出现问题时能快速定位责任边界。这种保守倾向，或许正是 solo 开发者的生存策略——当没有同事能帮你擦屁股时，技术选型首先要服务于可维护性。

一年测试下来，Daniel的模型清单已经收敛到固定组合。免费层留作备用，付费层按场景分工，本地模型暂时搁置。这个配置不是最优解，但是在他特定约束下的可行解。

他的最后一个观察关于成本结构。SaaS财务系统的AI集成不是一次性支出，是随用量线性增长的运营成本。OCR调用、代码补全、异常诊断——每个环节都在消耗token。早期选择免费模型省下的钱，后期可能在纠错和返工上加倍偿还。

这引出一个他没有回答的问题：当AI辅助开发成为标配，个人开发者的竞争优势究竟在哪里？是更快的原型速度，还是更深层的业务理解？你的项目里，哪个环节已经离不开特定模型了？