打开网易新闻 查看精彩图片

在 2025 年 10 月 31 日,Ollama 发布了 v0.12.8 版本。本次更新围绕性能提升、功能优化与跨平台兼容性进行了改进,同时修复了多个已知问题。以下是本版本的详细更新内容:

一、主要更新亮点 1. Qwen3-VL 性能优化

  • 默认启用 Flash Attention:Qwen3-VL 在推理过程中的注意力计算性能显著提升,减少显存占用的同时加快响应速度。

  • 清理前置空白输出:在思考(thinking)阶段后输出的文本中,减少多余的空格,提升文本美观与可读性。

  • 透明背景图像识别修复:解决了 Qwen3-VL 在解读透明背景图片时的解析失败问题。

2. 模型运行与卸载流程优化
  • • 在使用ollama rm删除模型之前,系统会自动停止正在运行的模型,避免删除过程中资源冲突。

  • • 新增卸载流程容错提示,如果卸载失败且并非“未找到模型”的情况,会给出警告信息。

3. Deepseek-V3.1 逻辑修复
  • • 修复了 Ollama 新版应用中无法关闭 deepseek-v3.1 思考模式的问题,用户可按需控制模型推理方式。

4. 跨平台 GPU 设备兼容性增强
  • • Windows 平台设备扫描中忽略不支持的集成显卡(iGPU),提高设备识别效率,避免无效设备导致的初始化异常。

  • • GPU 设备发现逻辑调整,增加 PCI ID 校验,确保设备匹配更加准确。

二、引擎与底层优化 1. 推理性能优化
  • • 解决了提示词(prompt)处理速度在 Ollama 引擎中偏慢的问题,提升整体响应速度。

  • • 在 GGML 引擎中,增加op_offload支持,以改进部分任务的性能。

2. GGML Flash Attention 支持范围调整
  • • 将 Qwen3、Qwen3-MOE、Qwen3-VL、Qwen3-VL-MOE 纳入支持列表,为更多模型带来更快、更高效的注意力计算。

3. 批处理与内存分配改进
  • • 增加批大小(batch size)提示参数,优化推理调度器在推理过程中的资源分配策略。

  • • 引入ggml_backend_sched_new_ext接口,支持自定义调度器的内存分配模式,并允许开启或关闭缓冲区分配以适应不同推理场景。

三、测试用例与稳定性提升 1. 工具调用(Tool Calling)测试增强
  • • 为多种模型(如 Qwen3-VL、GPT-OSS 系列、LLaMA3.1、Mixtral 等)增加工具调用集成测试,验证模型接收并执行工具请求的能力。

  • • 测试场景包括调用get_weather函数并传递location参数,确保多模型在对话流中能正确触发工具调用并返回预期结果。

2. 更高的测试容错能力
  • • 延长工具调用测试的等待时间,适配大模型加载与响应。

  • • 在显存不足时自动跳过对应测试,避免影响整体测试进程。

四、文档与可用性改进
  • • 部分文档链接更新为最新的在线版本,方便用户查阅(如 Linux 手动安装说明、模型导入指南、Modelfile 文档等)。

五、总结

Ollama v0.12.8 在 Qwen3-VL 以及底层推理引擎上进行了显著的性能优化,并改进了模型管理流程,增加了跨平台 GPU 兼容性。在测试覆盖方面,新增了针对工具调用的多模型验证,使系统在复杂应用场景中更加稳定和易用。

我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。 欢迎关注“福大大架构师每日一题”,发消息可获得面试资料,让AI助力您的未来发展。