本地大模型听起来很美好——在自己的笔记本或服务器上运行AI,无限调用、没有用量限制。但真正用起来,这个想法就开始崩解了。

问题是硬件门槛太高。想在廉价笔记本上流畅运行?不现实。至少需要8GB内存,最好是Mac。否则就得配独立显卡,才能勉强跑起3B或7B的小模型。想要 decent 性能,通常得升级到14B模型,而这需要相当强劲的硬件。

打开网易新闻 查看精彩图片

我的配置是16GB内存的M5 Mac,即便如此有时也会卡顿。32B或更大的模型基本不用想,除非你有更顶级的设备。我见过有人用高配M5 MacBook Pro成功运行更大模型,但对大多数人来说,这不现实。

这种限制让我的本地优先工作流在处理复杂任务时很挫败——模型经常卡壳。我在用Qwen 2.5,虽然以它的体积来说表现惊艳,但毕竟还是个小模型。于是我决定给它找个帮手:配置了一套系统,本地模型卡住时能呼叫Claude支援。这彻底改变了这套工作流的实用价值。

本地大模型的核心困境在于,它们本就运行在有限硬件上,处理高度复杂任务的能力天然受限。大多数消费级本地模型,跟OpenAI ChatGPT这类工具相比差距明显——后者跑在庞大的商业基础设施上,笔记本根本无法匹敌。

你可以运行70B参数的大模型,但这需要更强的硬件。我曾用32GB内存的M5 MacBook Pro尝试过,确实能跑,但这套配置价格不菲,对大多数人并不实用。

最终我意识到,使用本地大模型的最佳方式,不是期待它独当一面,而是把它当作初级工程师:能处理基础工作、简单实现和重复任务,但卡住时要懂得求助。

基于这个想法,我搭建了一套编排系统。本地大模型负责主工作流,云端模型——我选的是Claude——作为后备。本地模型先独立尝试任务,失败则重试;若仍无法解决,就向Claude升级问题,但只传递推进所需的关键信息,而非倾倒整段对话。

传递的上下文通常包括任务本身、遇到的具体问题。这种精准的信息传递,让云端模型能快速介入而不被冗余信息淹没。