打开网易新闻 查看精彩图片

【CSDN 编者按】在这个动辄“上云即上万成本”、动不动就要 K8s、微服务、AI 大模型全家桶的时代,越来越多开发者被一种“技术焦虑”裹挟:不堆栈、不烧钱,似乎就做不出像样的产品。但本文作者恰恰提供了一个截然相反的视角——用最朴素的技术选型、最克制的资源投入,反而能跑出真实盈利的业务。

原文链接:https://stevehanov.ca/blog/how-i-run-multiple-10k-mrr-companies-on-a-20month-tech-stack

作者 | Steve Hanov 翻译 | 郑丽媛

出品 | CSDN(ID:CSDNnews)

昨晚,我又一次被拒在某个 Pitch Night(融资路演)门外,甚至还没进入正式环节,只是初筛就被刷了。

问题压根不在我的产品上:毕竟我的项目早已实现稳定 MRR(月度经常性收入),也拥有每天都在使用它的真实用户。对方给我的反馈只有一句话:“你到底为什么需要融资?”——说实话,这种话我已经听过太多次了。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

把成本压到极致,反而“劝退”VC

我一直是那种“极致精益”的开发者。

我做过一些你可能用过的工具,比如 websequencediagrams.com;也做过一些你大概率没听过的垂直产品,比如 eh-trade.ca。这种对效率的执念,让我成功实现了Bootstrap(自举创业)——但也正因为如此,很多风投其实并不喜欢我。

原因很简单:当你把成本压到近乎为 0 时,本质上你就拥有了和“拿到 100 万美元融资”一样长的生存周期。而且,这种模式还有几个额外好处:

● 压力更小(没有董事会天天盯着你)

● 架构更简单(不会过度设计)

● 有足够时间找到 PMF(产品市场匹配)

如果你也厌倦了当下那套臃肿的 “企业级” 技术模板,那这篇文章会完整分享我如何用几乎可以忽略不计的成本搭建并运营公司。

打开网易新闻 查看精彩图片

服务器:别上来就 AWS,全是坑

2026 年了,很多人开发部署 Web 应用的做法还是:开通 AWS,创建 EKS 集群,配置 RDS 实例,搭建 NAT 网关。结果,还没一个用户访问落地页,每月就莫名其妙烧掉 300 美元。

正确姿势应该是:租用一台独立的虚拟专用服务器(VPS)。

我做的第一件事就是入手一台便宜又稳定的服务器。忘掉 AWS 吧,你根本用不上,它的控制台也复杂得不行,目的就是诱导你升级付费。我常用 Linode 或 DigitalOcean,每月成本基本控制在 5~10 美元。

我知道,1GB 内存对现在的 Web 开发者来说听起来很吓人,但只要技术选型得当,是完全够用的。如果想多留点缓冲空间,开个交换分区(swapfile)就行。

打开网易新闻 查看精彩图片

记住,我们的目标是“处理请求”,不是“维护复杂的基础设施”。单台服务器的好处很明显:日志位置一目了然,崩溃原因能快速定位,重启方式也非常简单。

打开网易新闻 查看精彩图片

后端语言:别再浪费内存了

现在你有了硬件限制:只有 1GB 内存。你当然可以用 Python 或 Ruby 作为主力后端语言——但何必呢?光是启动解释器、管理 gunicorn 工作进程,就会耗掉你一半内存。

关于后端语言,我的选择是 Go。

原因很现实:Go 在 Web 场景下的性能碾压式领先,是强类型语言,而且对当下开发者来说至关重要的一点——LLM 大模型理解和生成 Go 代码极其轻松。不仅如此,Go 真正的杀手锏是部署流程:没有依赖地狱,不需要虚拟环境,在本地把整个应用编译成一个静态链接二进制文件,用 scp 传到这台 5 美元的服务器上,直接运行即可。

下面就是一段完整可上生产的 Go Web 服务代码,无需任何臃肿框架:

}

打开网易新闻 查看精彩图片

本地 AI:你家显卡=无限额度

如果你家里有一块显卡:恭喜,你已经拥有“无限 AI 调用额度”。

我在开发 eh-trade.ca 时遇到一个具体问题:需要对数千家公司做深度、定性的股市研究,总结海量季报内容。常规做法是直接调用 OpenAI API,但这样可能要花掉数百美元的调用费用,结果还可能因为提示词循环里的逻辑 bug,不得不整批重新跑一遍,成本直接爆炸。

所以,我的方案是:用一张从二手平台淘来的、售价 900 美元的旧显卡(RTX 3090,24GB 显存)跑 VLLM。这确实是一次性的前期投入,但从此以后,我再也不用为批量 AI 处理向任何 AI 服务商支付费用了。

本地 AI 的升级路径很清晰:

(1)从 Ollama 起步。一条命令即可启动,能快速体验数十种模型,非常适合提示词迭代调试。

(2)生产环境切换 VLLM。系统跑通后,Ollama 在并发请求下会成为瓶颈,VLLM 会把 GPU 锁定给单个模型,但基于 PagedAttention 机制,速度要快得多。可以设计系统同时发送 8 或 16 个异步请求,VLLM 会在 GPU 显存中批量处理,16 个任务的耗时几乎和处理单个任务差不多。

(3)进阶需求用 Transformer Lab。如果需要模型预训练或微调,Transformer Lab 能让本地硬件部署变得更简单。

为了管理这些本地 AI,我开发了 laconic,一个专门针对 8K 上下文窗口优化的智能研究代理。它会像操作系统的虚拟内存管理器一样管理 LLM 上下文,把对话中无关的内容“换出”,只保留最关键的信息留在活跃上下文窗口中。

我还在用 llmhub,它能把任意 LLM 封装成统一的 provider/endpoint/apikey 格式,无论模型是跑在本地还是云端,都能丝滑处理文本和图像 IO。

打开网易新闻 查看精彩图片

多模型调用:用 OpenRouter

当然,并非所有任务都能在本地完成。例如,面对用户直接交互的低延迟对话场景,有时你需要 Claude 3.5 Sonnet 或 GPT-4o 这种顶级模型的推理能力。

与其分别管理 Anthropic、Google、OpenAI 的账号、API Key 和速率限制,我直接用 OpenRouter。代码里只需要写一套兼容 OpenAI 的接口,就能调用所有主流前沿模型。

更重要的是,它支持无缝降级路由。如果周二下午 Anthropic API 挂了(这种事经常发生),应用会自动切到等效的 OpenAI 模型,用户完全看不到报错页面,我也不用写复杂的重试逻辑。

打开网易新闻 查看精彩图片

写代码:别被 AI IDE 割韭菜

每周都有新的、贵得离谱的大模型发布。我总听到开发者每月花几百美元订阅 Cursor、购买 Anthropic API Key,只为让 AI 帮自己写模板代码。

而我全天用 Claude Opus 4.6,每月账单还不到 60 美元——秘诀就是:利用微软的定价策略。

我在 2023 年订阅了 GitHub Copilot,搭配原生 VS Code 一直用到现在。Cursor 等魔改编辑器刚推出AI编码代理时确实先进,但 Copilot Chat 总能快速追上。

有一个核心技巧可能很多人都没发现:微软是按“请求次数”收费的,而非按 Token 计费。要知道,一次“请求”就是我在对话框里输入的一个 prompt,哪怕这个 prompt 让 AI 花半小时遍历我的整个代码库、梳理依赖、修改上百个文件,也只花大约 0.04 美元。

最佳实践也很简单:写极其详细、带明确验收标准的 prompt,让 AI “一直跑直到没 bug”,然后提交请求去喝杯咖啡就行,相当于微软在帮你付这些算力钱。

打开网易新闻 查看精彩图片

数据库:SQLite 就够了

我启动任何新项目,主力数据库一律用 SQLite——先别急着反驳,这并没有你想的那么离谱。

传统的“企业思维”总觉得必须用独立部署的数据库服务,但事实是:本地 SQLite 文件通过 C 接口或内存通信,速度比通过 TCP 访问远程 PostgreSQL 服务器快几个数量级。

你可能会问:“那并发怎么办?”很多人以为 SQLite 每次写入都会锁整个库,这是错的。只需要开启预写日志(WAL)即可,打开数据库时执行一次这两条配置:

PRAGMA synchronous=NORMAL;

这样一来,问题直接解决:读写不互锁。在 NVMe 硬盘上,单数据库文件就能轻松支撑数千并发用户。

基于 SQLite 开发最麻烦的通常是用户认证模块,为此我写了一个库:smhanov/auth,可以直接对接任意数据库,管理用户注册、会话、密码重置,还支持谷歌、Facebook、X 以及企业 SAML 登录,没有臃肿依赖,代码简洁可审计。

打开网易新闻 查看精彩图片

总结:创业不需要“豪华配置”

科技行业总在灌输一种观念:做正经生意需要复杂的编排服务、高额的 AWS 月费、数百万美元的风投资金——但现实是:根本不需要。

就我来说:只用一台 VPS、静态编译二进制文件、本地 GPU 跑批量 AI 任务,再加上 SQLite 的极致速度,就能以每月几杯咖啡的成本,自行搭建具备高可扩展性的初创项目。

只有这样,我才可以真正把时间花在解决用户问题上,而不用天天为了烧钱速度去焦虑。