下载模型、配置环境、启动服务——听起来三步搞定,实际踩坑无数。这是零成本个人AI助手系列的第三篇,聊聊在免费Oracle云服务器上跑本地大模型的真实体验。第一篇讲架构,第二篇讲环境搭建,这篇只说实战:什么能跑,什么跑不动,以及怎么用"本地+免费API"的混合方案让事情变得可行。
先说硬约束。Oracle的免费ARM实例没有GPU,所有推理全靠CPU。现代大模型本为GPU并行计算设计,搬到CPU上完全是另一回事。实测下来,回复一条Telegram消息等4-7秒可以接受——你发完消息放下手机,回来再看回复,心理预期和实时聊天不同,但能忍。真正的错误是盲目追求大模型:70B参数版本需要40GB内存,实例根本跑不动。作者亲测下载到42GB时磁盘已满,模型还没启动就失败。
部署工具选Ollama,相当于本地模型的播放器。安装前务必先装tmux:sudo apt install tmux -y,然后tmux new -s setup创建会话。SSH断线后重连,用tmux attach -t setup就能回到刚才的进度。大模型下载中途断连、没开tmux,等于从头再来。Ollama安装命令一行搞定:curl -fsSL https://ollama.com/install.sh | sh,装完自动注册为systemd服务,开机自启无需手动管理。
模型选择看内存和质量的平衡,不是参数越大越好。三款实测可用:
Llama 3.2:3B(速度优先)
内存占用约2GB,速度15-25 token/秒,日常问答和短内容起草够用,复杂推理吃力。
Llama 3.1:8B(质量优先)
内存占用约5GB,速度5-10 token/秒,推理能力明显提升,适合质量优先的复杂任务。
Phi-4:14B(推理优先)
内存占用约9GB,速度2-5 token/秒,作者原文未完整描述其特性,此处不展开。
实际部署时,先用ollama pull下载对应模型,再用ollama run启动交互。免费实例的瓶颈很现实:内存上限锁死可选范围,CPU算力决定响应速度,磁盘空间限制模型体积。这三条红线,选模型时一起算清楚。
热门跟贴