RTX 5070 Ti太顶！Qwen3.6-35B 98t/s破纪录

辉哥说动漫

2026-04-22 00:02 ·北京

想本地跑35B级大模型，要么花大价钱上专业显卡，要么速度慢到卡顿，这是咱们玩本地AI最头疼的事。2026年实测打破僵局，RTX 5070 Ti跑Qwen3.6-35B，稳定跑出98t/s，中端显卡跑出旗舰级速度，不用云端、不浪费显存，普通人照着设置就能复刻。

一、先讲清楚：这套实测的硬件与前提

本次测试全程基于2026年4月最新驱动与模型版本，无任何虚假超频、无虚假参数，硬件与环境都是家用常规配置，大家可直接对照验证。

硬件基础

- 显卡：RTX 5070 Ti 16GB GDDR7，Blackwell 2.0架构，开启FP8张量核心加速

- 驱动：NVIDIA Studio 575.12 专业驱动，专门优化大模型推理

- 内存：DDR5 64GB 6000MHz，避免模型加载卡顿

- 存储：4TB NVMe PCIe4.0固态，保证模型快速读取

核心前提

仅针对Qwen3.6-35B-A3B量化版本，采用家用级优化参数，不牺牲模型回答质量，兼顾速度与实用性，区别于市面上单纯堆速度、弃质量的设置。

二、一步到位：98t/s速度复刻实操步骤

全程无复杂代码，新手也能一步步完成，关键设置加粗标注，错一步速度直接腰斩。

1. 环境一键部署，跳过繁琐配置

1. 下载安装Ollama 2026最新版，默认安装即可，无需手动改路径

2. 打开电脑命令提示符，输入部署指令，自动下载适配模型

plaintext

ollama run qwen3.6:35b-a3b-q4_K_M

3. 等待模型下载完成，全程无需手动配置依赖，自动匹配显卡加速

2. 核心优化设置，直接拉高速度

部署完成后，找到Ollama配置文件，按以下参数修改，不得擅自改动数值：

- n_gpu_layers=100：全部层offload到显卡，完全调用GPU算力

- n_ctx=8192：适配8K上下文，兼顾长文本与速度平衡

- num_threads=16：匹配CPU核心数，不占用多余资源

- temperature=0.7：保证回答逻辑，不影响推理速度

- flash_attention=true：开启闪电注意力，2026年专属优化开关

3. 最终启动与验证

1. 保存配置文件，重启Ollama服务

2. 输入测试指令，发起长文本推理请求

3. 查看实时速度，稳定维持96-98t/s，无掉速、无显存溢出

实测全程显存占用14.2GB，刚好卡在16GB显存安全区间，不报错、不卡顿，连续推理30分钟，速度无波动，显卡温度稳定在72℃，属于家用正常散热范围。

三、实测对比：RTX 5070 Ti的真正优势

同样参数下，对比多款显卡，差距一目了然，也帮大家避开硬件选择坑。

- RTX 5070 Ti：98t/s，显存14.2GB，温度72℃，家用电源即可带动

- RTX 4090：76t/s，显存占用更高，老架构优化不足

- RTX 5060 Ti：51t/s，算力不足，无法满层调用

- 专业显卡A100：112t/s，价格是RTX 5070 Ti的3倍以上

不难发现，RTX 5070 Ti在2026年本地AI场景，是性价比天花板。16GB显存刚好适配35B级模型量化需求，第五代张量核心+FP8精度优化，完美释放Qwen3.6-35B性能，不用花高价，就能实现中端显卡跑高端大模型。

四、避坑提醒：这些错误别踩

很多人同款显卡跑不出速度，全是踩了这些细节坑，务必注意。

1. 禁止用游戏驱动，必须装Studio专业驱动，游戏驱动无大模型优化

2. 不要随意提高上下文长度，超过8K，速度直接掉到60t/s以下

3. 关闭电脑后台显卡超频、功耗限制软件，避免算力被抢占

4. 模型必须选q4_K_M量化版，其他版本要么跑不动，要么速度暴跌

五、作者实测心得

玩本地AI这么久，一直觉得35B级大模型是中端显卡的禁区，要么显存不够，要么速度慢到没法用。这次RTX 5070 Ti的实测结果，确实打破了这个固有认知。

它不是靠牺牲体验堆速度，而是在合理量化、精准配置、硬件适配三者平衡下，跑出家用级可用的98t/s。不用承担云端隐私风险，不用花大价钱升级硬件，普通玩家、职场人、AI爱好者，都能用中端显卡，流畅运行35B级强算力大模型。

这也给咱们选显卡指了方向，2026年玩本地AI，不是越贵越好，而是显存够用、架构适配、优化到位，才是最实用的选择。

你的RTX 5070 Ti跑大模型最高能到多少t/s？有没有更极致的优化设置，欢迎在评论区交流实测数据。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴