打开网易新闻 查看精彩图片

作为一名报道人工智能超过十年的记者,我一直深知运行人工智能会带来各种计算机工程挑战。大语言模型不断变得更大,需要越来越多的DRAM内存来运行其模型"参数"或"神经权重"。

我了解这些情况,但想要亲身体验一下。我想在家用电脑上运行一个大语言模型。

下载和运行AI模型可能需要大量工作来设置"环境"。受同事Jack Wallen对开源工具Ollama的报道启发,我下载了Ollama的MacOS版本作为进入本地AI的入口。

Ollama相对容易使用,它与LangChain、Codex等工具的集成做得很好,这意味着它正在成为整合AI各个方面的工具,这令人兴奋。

在本地运行大语言模型的优势

在本地运行大语言模型,而不是仅仅在线使用ChatGPT或Perplexity,对程序员和任何信息工作者都很有吸引力。

首先,作为信息工作者,如果你能下载和运行模型,而不是像每个ChatGPT免费用户一样只会在线输入,你在就业市场上会更有价值。这涉及基本的职业发展。

其次,有了本地大语言模型实例,你可以防止敏感数据离开你的机器。这对任何信息工作者来说都应该是显而易见的重要性,不仅仅是程序员。在我的情况下,我的项目目标是使用本地模型来挖掘我多年来的文章库,作为我所写内容的报告,包括我可能已经忘记的内容。我喜欢保持所有文件本地化,而不是上传到云服务。

第三,你可以避免OpenAI、Google、Anthropic等公司收取的费用。正如我最近所写,在线使用大语言模型的价格将要上涨,所以现在是考虑在自己机器上离线完成大部分工作的好时机,那里不会持续计费。

第四,你有更多控制权。例如,如果你想做编程,你可以调整大语言模型,称为微调,以获得更专注的结果。你还可以使用各种本地安装的工具,如LangChain、Anthropic的Claude Code工具、OpenAI的Codex编码工具等。

即使你只想做信息工作者任务,如生成报告,使用本地文档缓存或本地数据库进行此类操作也能获得比上传内容到机器人更大的控制权。

测试设备配置

我用一台最低配置的机器进行这个实验,就运行大语言模型而言。我想了解如果有人不经常购买新机器,而是在家里用日常任务使用的同一台电脑尝试这样做会发生什么。

我的MacBook Pro已经三年了,有16GB RAM和一个四分之三满的1TB硬盘,运行的不是最新的MacOS,而是MacOS Sonoma。这是2021年的型号MK193LL/A,虽然我2023年1月在Best Buy清仓销售时购买时它是顶级配置,但当时它已经在成为昨天的最佳型号了。

我知道,这超出了机器的典型有用寿命和任何人的折旧计划。尽管如此,这台MacBook当时是一个很棒的升级,并且在日常典型的信息工作者任务中继续表现出色:日历、大量电子邮件、大量网站、视频后期制作、播客音频录制等。我从未有任何抱怨。

实际测试体验

Ollama的启动界面看起来像Chatgpt,有一个友好的输入提示,一个上传文档的"加号",以及一个可以本地安装的模型下拉菜单,包括Qwen等流行模型。

如果你只是在提示处开始输入,Ollama会自动尝试下载下拉菜单中显示的任何模型。所以,除非你想要模型轮盘赌,否则不要做任何输入。

我查看了下拉列表中的模型,意识到其中一些模型不是本地的——它们在云端。如果你想要Ollama的基础设施而不是自己的,Ollama会运行云服务。

坚持本地运行选项,我决定查看Ollama维护的模型目录中更广泛的模型列表。

我随机选择了中国AI初创公司Z.ai的glm-4.7-flash。拥有300亿"参数"或神经权重,GLM-4.7-flash按今天的标准来说是一个"小型"大语言模型,但不是很小,因为有少于10亿参数的开源模型。

目录为你提供终端命令,通过在Mac终端复制粘贴来下载选定的模型,如:ollama run glm-4.7-flash

要注意磁盘空间。Glm-4.7-flash占用19GB磁盘空间,记住,这还是小的!

下载模型似乎相当快,虽然不是闪电般快速。在纽约市Spectrum提供给我家庭办公室的千兆速度电缆调制解调器上,该模型一度以每秒45MB的速度下载,虽然后来降到了较慢的吞吐率。

性能测试结果

我的第一个提示相当简单:"你是什么类型的大语言模型?"

我坐着观察了一会儿,看到前几个字符出现在回应中:"[灯泡图标] 思考中——让我分析是什么让我成为一个"就这样了。

十分钟后,它没有进展多少。

一小时16分钟后——模型"思考"了5197.3秒——我终于得到了关于glm-4.7-flash是什么类型语言模型的答案。经过这么长时间,答案并不是那么有趣。

我想我已经对glm感到厌倦了。不幸的是,Ollama没有提供关于如何删除本地安装模型的说明。模型保存在MacOS当前用户目录中的隐藏文件夹".ollama"内的"models"文件夹中。

Jack还推荐了OpenAI最近的开源模型gpt-oss,20亿参数版本"20b",他说在本地运行比他尝试的其他模型明显更快。所以,我接下来在目录中找到了那个。

这次,大约六分钟后,gpt-oss:20b以不算蜗牛般但也不快的速度产生了回应,说它是"ChatGPT,由OpenAI的GPT-4系列驱动"等等。

结论和反思

ChatGPT告诉我,运行gpt-oss:20b的计算机最低配置实际上是32GB DRAM。MacBook的M1 Pro芯片有集成GPU,ChatGPT赞许地指出Ollama为gpt-oss:20b版本提供了对Mac GPU的支持,这是一个称为"llama.cpp后端"的库。

所以,一切都应该没问题,但我确实需要超过16GB的DRAM。我需要从现在五年老的M1升级到M4或M5。对我来说相当有趣的是,写了三十年计算机文章,对于信息工作者,我们谈论32GB作为最低合理配置。

正如我最近提到的,DRAM价格飞涨,因为所有那些云数据中心都在消耗越来越多的DRAM来运行大语言模型。所以,可以说是我对抗云供应商,我可能需要刷信用卡升级到新电脑。

虽然我初出茅庐的本地Ollama努力没有取得成功,但它让我对AI的内存密集程度有了新的认识。从多年报道AI我一直知道这点,但现在我深有体会,当对提示的响应需要永远滚动屏幕时的那种感觉。

Q&A

Q1:为什么要在本地运行大语言模型而不是使用在线服务?

A:本地运行大语言模型有几个优势:首先可以保护敏感数据不离开本地机器,其次可以避免OpenAI、Google等公司的费用,第三能获得更多控制权进行模型微调,最后对信息工作者来说这是基本的职业发展技能。

Q2:运行本地大语言模型需要什么样的硬件配置?

A:根据测试经验,16GB RAM的配置明显不够用。ChatGPT建议运行gpt-oss:20b这样的模型最低需要32GB DRAM。而且最好使用较新的处理器如M4或M5,而不是五年前的M1芯片,因为AI模型对内存和计算能力要求很高。

Q3:Ollama工具使用起来怎么样?

A:Ollama相对容易使用,界面类似ChatGPT,有友好的输入提示和模型选择菜单。它与LangChain、Codex等工具集成良好。但需要注意的是,一些模型实际上是云端运行的,而且删除本地模型的操作比较复杂,需要手动删除隐藏文件夹中的内容。