0融资、没团队，被VC嫌弃“太省钱”？仅凭一套月费20元的“穷鬼技术栈”，他跑出了多个月入1万的创业项目|sqlite|代码|命令提示符|服务器|融资|调用

【CSDN 编者按】在这个动辄“上云即上万成本”、动不动就要 K8s、微服务、AI 大模型全家桶的时代，越来越多开发者被一种“技术焦虑”裹挟：不堆栈、不烧钱，似乎就做不出像样的产品。但本文作者恰恰提供了一个截然相反的视角——用最朴素的技术选型、最克制的资源投入，反而能跑出真实盈利的业务。

原文链接：https://stevehanov.ca/blog/how-i-run-multiple-10k-mrr-companies-on-a-20month-tech-stack

作者 | Steve Hanov 翻译 | 郑丽媛

出品 | CSDN（ID：CSDNnews）

昨晚，我又一次被拒在某个 Pitch Night（融资路演）门外，甚至还没进入正式环节，只是初筛就被刷了。

问题压根不在我的产品上：毕竟我的项目早已实现稳定 MRR（月度经常性收入），也拥有每天都在使用它的真实用户。对方给我的反馈只有一句话：“你到底为什么需要融资？”——说实话，这种话我已经听过太多次了。

把成本压到极致，反而“劝退”VC？

我一直是那种“极致精益”的开发者。

我做过一些你可能用过的工具，比如 websequencediagrams.com；也做过一些你大概率没听过的垂直产品，比如 eh-trade.ca。这种对效率的执念，让我成功实现了Bootstrap（自举创业）——但也正因为如此，很多风投其实并不喜欢我。

原因很简单：当你把成本压到近乎为 0 时，本质上你就拥有了和“拿到 100 万美元融资”一样长的生存周期。而且，这种模式还有几个额外好处：

● 压力更小（没有董事会天天盯着你）

● 架构更简单（不会过度设计）

● 有足够时间找到 PMF（产品市场匹配）

如果你也厌倦了当下那套臃肿的 “企业级” 技术模板，那这篇文章会完整分享我如何用几乎可以忽略不计的成本搭建并运营公司。

服务器：别上来就 AWS，全是坑

2026 年了，很多人开发部署 Web 应用的做法还是：开通 AWS，创建 EKS 集群，配置 RDS 实例，搭建 NAT 网关。结果，还没一个用户访问落地页，每月就莫名其妙烧掉 300 美元。

正确姿势应该是：租用一台独立的虚拟专用服务器（VPS）。

我做的第一件事就是入手一台便宜又稳定的服务器。忘掉 AWS 吧，你根本用不上，它的控制台也复杂得不行，目的就是诱导你升级付费。我常用 Linode 或 DigitalOcean，每月成本基本控制在 5～10 美元。

我知道，1GB 内存对现在的 Web 开发者来说听起来很吓人，但只要技术选型得当，是完全够用的。如果想多留点缓冲空间，开个交换分区（swapfile）就行。

记住，我们的目标是“处理请求”，不是“维护复杂的基础设施”。单台服务器的好处很明显：日志位置一目了然，崩溃原因能快速定位，重启方式也非常简单。

后端语言：别再浪费内存了

现在你有了硬件限制：只有 1GB 内存。你当然可以用 Python 或 Ruby 作为主力后端语言——但何必呢？光是启动解释器、管理 gunicorn 工作进程，就会耗掉你一半内存。

关于后端语言，我的选择是 Go。

原因很现实：Go 在 Web 场景下的性能碾压式领先，是强类型语言，而且对当下开发者来说至关重要的一点——LLM 大模型理解和生成 Go 代码极其轻松。不仅如此，Go 真正的杀手锏是部署流程：没有依赖地狱，不需要虚拟环境，在本地把整个应用编译成一个静态链接二进制文件，用 scp 传到这台 5 美元的服务器上，直接运行即可。

下面就是一段完整可上生产的 Go Web 服务代码，无需任何臃肿框架：

本地 AI：你家显卡=无限额度

如果你家里有一块显卡：恭喜，你已经拥有“无限 AI 调用额度”。

我在开发 eh-trade.ca 时遇到一个具体问题：需要对数千家公司做深度、定性的股市研究，总结海量季报内容。常规做法是直接调用 OpenAI API，但这样可能要花掉数百美元的调用费用，结果还可能因为提示词循环里的逻辑 bug，不得不整批重新跑一遍，成本直接爆炸。

所以，我的方案是：用一张从二手平台淘来的、售价 900 美元的旧显卡（RTX 3090，24GB 显存）跑 VLLM。这确实是一次性的前期投入，但从此以后，我再也不用为批量 AI 处理向任何 AI 服务商支付费用了。

本地 AI 的升级路径很清晰：

（1）从 Ollama 起步。一条命令即可启动，能快速体验数十种模型，非常适合提示词迭代调试。

（2）生产环境切换 VLLM。系统跑通后，Ollama 在并发请求下会成为瓶颈，VLLM 会把 GPU 锁定给单个模型，但基于 PagedAttention 机制，速度要快得多。可以设计系统同时发送 8 或 16 个异步请求，VLLM 会在 GPU 显存中批量处理，16 个任务的耗时几乎和处理单个任务差不多。

（3）进阶需求用 Transformer Lab。如果需要模型预训练或微调，Transformer Lab 能让本地硬件部署变得更简单。

为了管理这些本地 AI，我开发了 laconic，一个专门针对 8K 上下文窗口优化的智能研究代理。它会像操作系统的虚拟内存管理器一样管理 LLM 上下文，把对话中无关的内容“换出”，只保留最关键的信息留在活跃上下文窗口中。

我还在用 llmhub，它能把任意 LLM 封装成统一的 provider/endpoint/apikey 格式，无论模型是跑在本地还是云端，都能丝滑处理文本和图像 IO。