ollama v0.12.8 发布：Qwen3-VL性能优化、模型卸载改进及多平台兼容性增强|vl|引擎|性能优化|新模型|调用

在 2025 年 10 月 31 日，Ollama 发布了 v0.12.8 版本。本次更新围绕性能提升、功能优化与跨平台兼容性进行了改进，同时修复了多个已知问题。以下是本版本的详细更新内容：

一、主要更新亮点 1. Qwen3-VL 性能优化

•默认启用 Flash Attention：Qwen3-VL 在推理过程中的注意力计算性能显著提升，减少显存占用的同时加快响应速度。
•清理前置空白输出：在思考（thinking）阶段后输出的文本中，减少多余的空格，提升文本美观与可读性。
•透明背景图像识别修复：解决了 Qwen3-VL 在解读透明背景图片时的解析失败问题。

2. 模型运行与卸载流程优化

• 在使用ollama rm删除模型之前，系统会自动停止正在运行的模型，避免删除过程中资源冲突。
• 新增卸载流程容错提示，如果卸载失败且并非“未找到模型”的情况，会给出警告信息。

3. Deepseek-V3.1 逻辑修复

• 修复了 Ollama 新版应用中无法关闭 deepseek-v3.1 思考模式的问题，用户可按需控制模型推理方式。

4. 跨平台 GPU 设备兼容性增强

• Windows 平台设备扫描中忽略不支持的集成显卡（iGPU），提高设备识别效率，避免无效设备导致的初始化异常。
• GPU 设备发现逻辑调整，增加 PCI ID 校验，确保设备匹配更加准确。

二、引擎与底层优化 1. 推理性能优化

• 解决了提示词（prompt）处理速度在 Ollama 引擎中偏慢的问题，提升整体响应速度。
• 在 GGML 引擎中，增加op_offload支持，以改进部分任务的性能。

2. GGML Flash Attention 支持范围调整

• 将 Qwen3、Qwen3-MOE、Qwen3-VL、Qwen3-VL-MOE 纳入支持列表，为更多模型带来更快、更高效的注意力计算。

3. 批处理与内存分配改进

• 增加批大小（batch size）提示参数，优化推理调度器在推理过程中的资源分配策略。
• 引入ggml_backend_sched_new_ext接口，支持自定义调度器的内存分配模式，并允许开启或关闭缓冲区分配以适应不同推理场景。

三、测试用例与稳定性提升 1. 工具调用（Tool Calling）测试增强

• 为多种模型（如 Qwen3-VL、GPT-OSS 系列、LLaMA3.1、Mixtral 等）增加工具调用集成测试，验证模型接收并执行工具请求的能力。
• 测试场景包括调用get_weather函数并传递location参数，确保多模型在对话流中能正确触发工具调用并返回预期结果。

2. 更高的测试容错能力

• 延长工具调用测试的等待时间，适配大模型加载与响应。
• 在显存不足时自动跳过对应测试，避免影响整体测试进程。

四、文档与可用性改进

• 部分文档链接更新为最新的在线版本，方便用户查阅（如 Linux 手动安装说明、模型导入指南、Modelfile 文档等）。

五、总结

Ollama v0.12.8 在 Qwen3-VL 以及底层推理引擎上进行了显著的性能优化，并改进了模型管理流程，增加了跨平台 GPU 兼容性。在测试覆盖方面，新增了针对工具调用的多模型验证，使系统在复杂应用场景中更加稳定和易用。

我们相信人工智能为普通人提供了一种“增强工具”，并致力于分享全方位的AI知识。在这里，您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。欢迎关注“福大大架构师每日一题”，发消息可获得面试资料，让AI助力您的未来发展。

ollama v0.12.8 发布：Qwen3-VL性能优化、模型卸载改进及多平台兼容性增强

热搜

热门跟贴

热搜

热门跟贴

相关推荐

大模型API的大众点评来了：7×24小时实测，毫秒级延迟智能路由

Agent2World来了，把世界模型做成可运行的符号环境

CMU开源首份Agentic Search日志数据，把Agent拆开给你看

架构解耦是统一多模态模型所必须的吗？全新AIA损失：No

F-22战斗机启动引擎，一股青烟喷涌而出

ClawHub迷之封杀操作，逼出首个Agent全球进化网络

AI上春晚：一场十四亿人的验收

重塑软件工程：从Vibe Coding走向Spec Coding

漫剧公司集体转向，AI仿真人或将颠覆行业

通过视觉安全提示与深度对齐实现大型视觉语言模型的安全对齐

谁在决定AI手机的未来：模型、系统，还是生态？

当千亿参数撞上5毫米芯片

理解与尊重比协议更重要：扎哈罗娃眼中的中俄关系底层逻辑

罄！告急！有跨省回上海返程机票高达11560元

为什么中国摩托，在非洲被印度三哥干掉了，背后逻辑很简单！

初创用3000万造不可编程的AI芯片，推理速度是Nvidia最强GPU 50倍

哈尔滨冰雪大世界：正式闭园

美军开打前夕，俄交武器中方出手，歼20模型抵伊朗

“前方无厕所、无烤肠、无茶叶蛋”，杭州“天下第一财神庙”劝返游客：回家吧

金银价再度大涨 国内金饰价格逼近1600元/克

金银价再度大涨国内金饰价格逼近1600元/克