RTX 2060 Super 8G 部署 Qwen3.6-35B-A3B 极限参数定稿报告

williamlouis

不能有比这个更LOW的配置了吧？没继续折腾hermes。测试后发现完全没有意思。硬件限制上不到16K 。上了也意义不大。折腾玩下。丰富下社区。
亮点：这个是无限制模型。有兴趣的可以玩玩。
一、测试环境

项目	规格
GPU	NVIDIA GeForce RTX 2060 SUPER 8G (可用显存 7158 MiB)
CPU	Intel Core i7-4790K @ 4.0GHz
内存	32 GB DDR3
系统	Windows (WDDM 驱动模式)
推理后端	llama.cpp b9374 (CUDA 12.4 x64)
测试模型	Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf

二、测试目的

验证 8G 显存消费级显卡在 Windows 环境下运行 35B MoE 大模型的可行性，并压榨出最大上下文长度与稳定生成速度的平衡点。

三、测试过程与数据记录

阶段 1：默认参数（失败）

-ngl 80 -c 4096

显存：逼近 8G 爆满
现象：failed to fit params to free device memory，llama.cpp 自动回退
速度：~7.5 t/s（显存爆满触发内存交换，断崖式下跌）
结论：不可直接用默认参数硬塞

阶段 2：MoE 专家路由优化（部分改善）

-ngl 80 --n-cpu-moe 38 -c 4096

显存：~2.5G（异常偏低）
速度：~15 t/s
问题：显存过低，说明 GPU 层数被过度削减，大量权重滞留 CPU 内存，速度瓶颈在内存带宽而非 GPU

阶段 3：强制显存适配 + 降低 GPU 层数（关键突破）

-ngl 30 --n-cpu-moe 20 -c 4096 -fit off

显存：6.8G / 8G（余量 1.3G）
速度：~15 t/s
结论：-fit off 关闭自动适配后，30 层权重成功驻留显存，进入甜点区

阶段 4：上下文扩容（最终定稿）

-ngl 30 --n-cpu-moe 20 -c 8192 -fit off

显存：7.0G / 8G（余量 1.1G）
速度：~17 t/s
结论：上下文从 4K 提升到 8K，显存仅增加 ~200MB，速度反而微升，达到最佳平衡点

四、最终推荐配置（定稿）

@echo off
cd /d D:\llama-b9374-bin-win-cuda-12.4-x64
llama-server.exe ^
  -m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf" ^
  -ngl 30 ^
  --n-cpu-moe 20 ^
  -c 8192 ^
  -n 2048 ^
  --no-warmup ^
  -np 1 ^
  --host 127.0.0.1 ^
  --port 8080 ^
  -fit off
pause

五、关键结论

8G 显存跑 35B MoE 可行，但需精确调参
- 不能无脑 -ngl 80，必须配合 -fit off 手动控制显存分配
- --n-cpu-moe 是 8G 卡跑大 MoE 模型的核心参数，负责将非激活专家路由到系统内存
显存甜点区：6.5G ~ 7.2G
- 低于 6G：GPU 层数不足，权重在 CPU，速度受限
- 高于 7.5G：余量不足，Windows WDDM 驱动波动易导致爆显存断崖
Windows WDDM 驱动占用不可忽视
- 可用显存仅 7.1G 左右（8192 MiB 标称，实际空闲 7158 MiB）
- 同配置在 Linux 下预计可多出 500MB~1G 可用显存，有望稳定 16K 上下文
上下文与速度并非完全负相关
- 本例中 4K → 8K 上下文，速度从 15 t/s 微升至 17 t/s，说明之前 4K 时 GPU 利用率未吃满，8K 反而让流水线更饱和
Qwen3.6-35B-A3B 的思考链（thinking）会消耗额外 token
- 复杂 prompt 容易陷入长 reasoning 导致响应延迟
- 建议前端 prompt 加前缀约束："请直接回答，不要输出思考过程"

六、使用注意事项

运行时请勿同时运行大型游戏或视频剪辑软件，1.1G 余量经不起抢占
长期稳定运行建议保持 -c 8192，不要尝试 16K（预估显存需求 8.5G+，必爆）
如需更高速度，唯一出路是换显卡（显存 12G+）或迁移至 Linux 系统

chencx1

这个好，可以拿6G显存的机子来玩玩了！

AGI

折腾劲很值得鼓励，但是意义不大！算是社区甜点了！值得有更大显存的继续折腾！这个社区精神就是折腾！

williamlouis

可以作为入学手办。跑通就OK了。了解各个参数都是控制什么的。还有模型的基本结构。这个老机器还在我这。有想法可以说。

AGI

@williamlouis 对于你们是老机器，对于我说刚买的机器！哈哈。笔记本，24年买的，还是壮年啊。感谢lz给的方案，让小白也能折腾！论坛和社区精神所在！

williamlouis

而且这个无限版的。是完全解锁的。你可以研究作作去马赛克啥的。我这台真是老机器。2014年的机器。。。。

抡锤者

RTX 2060 Super 8G 部署 Qwen3.6-35B-A3B 极限参数定稿报告