我的本地大模型卡壳时会喊Claude救场，这套混合架构改变了我的工作流

爬虫饲养员

2026-05-18 01:19 ·北京

本地大模型听起来很美好——在自己的笔记本或服务器上运行AI，无限调用、没有用量限制。但真正用起来，这个想法就开始崩解了。

问题是硬件门槛太高。想在廉价笔记本上流畅运行？不现实。至少需要8GB内存，最好是Mac。否则就得配独立显卡，才能勉强跑起3B或7B的小模型。想要 decent 性能，通常得升级到14B模型，而这需要相当强劲的硬件。

我的配置是16GB内存的M5 Mac，即便如此有时也会卡顿。32B或更大的模型基本不用想，除非你有更顶级的设备。我见过有人用高配M5 MacBook Pro成功运行更大模型，但对大多数人来说，这不现实。

这种限制让我的本地优先工作流在处理复杂任务时很挫败——模型经常卡壳。我在用Qwen 2.5，虽然以它的体积来说表现惊艳，但毕竟还是个小模型。于是我决定给它找个帮手：配置了一套系统，本地模型卡住时能呼叫Claude支援。这彻底改变了这套工作流的实用价值。

本地大模型的核心困境在于，它们本就运行在有限硬件上，处理高度复杂任务的能力天然受限。大多数消费级本地模型，跟OpenAI ChatGPT这类工具相比差距明显——后者跑在庞大的商业基础设施上，笔记本根本无法匹敌。

你可以运行70B参数的大模型，但这需要更强的硬件。我曾用32GB内存的M5 MacBook Pro尝试过，确实能跑，但这套配置价格不菲，对大多数人并不实用。

最终我意识到，使用本地大模型的最佳方式，不是期待它独当一面，而是把它当作初级工程师：能处理基础工作、简单实现和重复任务，但卡住时要懂得求助。

基于这个想法，我搭建了一套编排系统。本地大模型负责主工作流，云端模型——我选的是Claude——作为后备。本地模型先独立尝试任务，失败则重试；若仍无法解决，就向Claude升级问题，但只传递推进所需的关键信息，而非倾倒整段对话。

传递的上下文通常包括任务本身、遇到的具体问题。这种精准的信息传递，让云端模型能快速介入而不被冗余信息淹没。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴