<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[RTX 2060 Super 8G 部署 Qwen3.6-35B-A3B 极限参数定稿报告]]></title><description><![CDATA[<p dir="auto">不能有比这个 更LOW的配置了吧？没继续折腾hermes。测试后发现完全没有意思。硬件限制上不到16K 。上了也意义不大。折腾玩下。丰富下社区。<br />
亮点：这个是无限制模型。有兴趣的可以玩玩。<br />
一、测试环境</p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:left">项目</th>
<th style="text-align:left">规格</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:left"><strong>GPU</strong></td>
<td style="text-align:left">NVIDIA GeForce RTX 2060 SUPER 8G (可用显存 7158 MiB)</td>
</tr>
<tr>
<td style="text-align:left"><strong>CPU</strong></td>
<td style="text-align:left">Intel Core i7-4790K @ 4.0GHz</td>
</tr>
<tr>
<td style="text-align:left"><strong>内存</strong></td>
<td style="text-align:left">32 GB DDR3</td>
</tr>
<tr>
<td style="text-align:left"><strong>系统</strong></td>
<td style="text-align:left">Windows (WDDM 驱动模式)</td>
</tr>
<tr>
<td style="text-align:left"><strong>推理后端</strong></td>
<td style="text-align:left">llama.cpp b9374 (CUDA 12.4 x64)</td>
</tr>
<tr>
<td style="text-align:left"><strong>测试模型</strong></td>
<td style="text-align:left">Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf</td>
</tr>
</tbody>
</table>
<hr />
<p dir="auto">二、测试目的</p>
<p dir="auto">验证 8G 显存消费级显卡在 Windows 环境下运行 35B MoE 大模型的可行性，并压榨出<strong>最大上下文长度</strong>与<strong>稳定生成速度</strong>的平衡点。</p>
<hr />
<p dir="auto">三、测试过程与数据记录</p>
<p dir="auto">阶段 1：默认参数（失败）</p>
<pre><code>-ngl 80 -c 4096
</code></pre>
<ul>
<li><strong>显存</strong>：逼近 8G 爆满</li>
<li><strong>现象</strong>：<code>failed to fit params to free device memory</code>，llama.cpp 自动回退</li>
<li><strong>速度</strong>：~7.5 t/s（显存爆满触发内存交换，断崖式下跌）</li>
<li><strong>结论</strong>：不可直接用默认参数硬塞</li>
</ul>
<p dir="auto">阶段 2：MoE 专家路由优化（部分改善）</p>
<pre><code>-ngl 80 --n-cpu-moe 38 -c 4096
</code></pre>
<ul>
<li><strong>显存</strong>：~2.5G（异常偏低）</li>
<li><strong>速度</strong>：~15 t/s</li>
<li><strong>问题</strong>：显存过低，说明 GPU 层数被过度削减，大量权重滞留 CPU 内存，速度瓶颈在内存带宽而非 GPU</li>
</ul>
<p dir="auto">阶段 3：强制显存适配 + 降低 GPU 层数（关键突破）</p>
<pre><code>-ngl 30 --n-cpu-moe 20 -c 4096 -fit off
</code></pre>
<ul>
<li><strong>显存</strong>：6.8G / 8G（余量 1.3G）</li>
<li><strong>速度</strong>：~15 t/s</li>
<li><strong>结论</strong>：<code>-fit off</code> 关闭自动适配后，30 层权重成功驻留显存，进入甜点区</li>
</ul>
<p dir="auto">阶段 4：上下文扩容（最终定稿）</p>
<pre><code>-ngl 30 --n-cpu-moe 20 -c 8192 -fit off
</code></pre>
<ul>
<li><strong>显存</strong>：7.0G / 8G（余量 1.1G）</li>
<li><strong>速度</strong>：~17 t/s</li>
<li><strong>结论</strong>：上下文从 4K 提升到 8K，显存仅增加 ~200MB，速度反而微升，达到最佳平衡点</li>
</ul>
<hr />
<p dir="auto">四、最终推荐配置（定稿）</p>
<pre><code class="language-bat">@echo off
cd /d D:\llama-b9374-bin-win-cuda-12.4-x64
llama-server.exe ^
  -m "models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf" ^
  -ngl 30 ^
  --n-cpu-moe 20 ^
  -c 8192 ^
  -n 2048 ^
  --no-warmup ^
  -np 1 ^
  --host 127.0.0.1 ^
  --port 8080 ^
  -fit off
pause
</code></pre>
<hr />
<p dir="auto">五、关键结论</p>
<ol>
<li>
<p dir="auto"><strong>8G 显存跑 35B MoE 可行，但需精确调参</strong></p>
<ul>
<li>不能无脑 <code>-ngl 80</code>，必须配合 <code>-fit off</code> 手动控制显存分配</li>
<li><code>--n-cpu-moe</code> 是 8G 卡跑大 MoE 模型的核心参数，负责将非激活专家路由到系统内存</li>
</ul>
</li>
<li>
<p dir="auto"><strong>显存甜点区：6.5G ~ 7.2G</strong></p>
<ul>
<li>低于 6G：GPU 层数不足，权重在 CPU，速度受限</li>
<li>高于 7.5G：余量不足，Windows WDDM 驱动波动易导致爆显存断崖</li>
</ul>
</li>
<li>
<p dir="auto"><strong>Windows WDDM 驱动占用不可忽视</strong></p>
<ul>
<li>可用显存仅 7.1G 左右（8192 MiB 标称，实际空闲 7158 MiB）</li>
<li>同配置在 Linux 下预计可多出 500MB~1G 可用显存，有望稳定 16K 上下文</li>
</ul>
</li>
<li>
<p dir="auto"><strong>上下文与速度并非完全负相关</strong></p>
<ul>
<li>本例中 4K → 8K 上下文，速度从 15 t/s 微升至 17 t/s，说明之前 4K 时 GPU 利用率未吃满，8K 反而让流水线更饱和</li>
</ul>
</li>
<li>
<p dir="auto"><strong>Qwen3.6-35B-A3B 的思考链（thinking）会消耗额外 token</strong></p>
<ul>
<li>复杂 prompt 容易陷入长 reasoning 导致响应延迟</li>
<li>建议前端 prompt 加前缀约束："请直接回答，不要输出思考过程"</li>
</ul>
</li>
</ol>
<hr />
<p dir="auto">六、使用注意事项</p>
<ul>
<li><strong>运行时请勿同时运行大型游戏或视频剪辑软件</strong>，1.1G 余量经不起抢占</li>
<li><strong>长期稳定运行建议保持 <code>-c 8192</code></strong>，不要尝试 16K（预估显存需求 8.5G+，必爆）</li>
<li>如需更高速度，唯一出路是换显卡（显存 12G+）或迁移至 Linux 系统</li>
</ul>
<p dir="auto"><img src="https://upload.lcz.me/uploads/cfa273be-18fa-420e-9b1d-308d64a46300.jpeg" alt="55b40bef-1be4-46ca-8da3-168d4bae0ead-image.jpeg" class=" img-fluid img-markdown" /><br />
<img src="https://upload.lcz.me/uploads/06a970af-8c84-493b-a6a5-abcfe8acf002.jpeg" alt="94394cd6-6ad3-4939-8ab8-ce1f724c02d5-image.jpeg" class=" img-fluid img-markdown" /><br />
<img src="https://upload.lcz.me/uploads/bf108956-003c-4ec8-8c65-bf5487ba5d92.jpeg" alt="78c0cab3-e8ef-4fb2-95f1-62f3527afc17-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/topic/342/rtx-2060-super-8g-部署-qwen3.6-35b-a3b-极限参数定稿报告</link><generator>RSS for Node</generator><lastBuildDate>Wed, 01 Jul 2026 08:03:38 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/342.rss" rel="self" type="application/rss+xml"/><pubDate>Thu, 28 May 2026 19:16:19 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to RTX 2060 Super 8G 部署 Qwen3.6-35B-A3B 极限参数定稿报告 on Sat, 30 May 2026 13:47:02 GMT]]></title><description><![CDATA[<p dir="auto">而且这个无限版的。是完全解锁的。你可以研究作作 去马赛克啥的。我这台真是老机器。2014年的机器。。。。</p>
]]></description><link>https://lcz.me/post/4363</link><guid isPermaLink="true">https://lcz.me/post/4363</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Sat, 30 May 2026 13:47:02 GMT</pubDate></item><item><title><![CDATA[Reply to RTX 2060 Super 8G 部署 Qwen3.6-35B-A3B 极限参数定稿报告 on Sat, 30 May 2026 13:26:13 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/williamlouis" aria-label="Profile: williamlouis">@<bdi>williamlouis</bdi></a> 对于你们是老机器，对于我说刚买的机器！哈哈。笔记本，24年买的，还是壮年啊。感谢lz给的方案，让小白也能折腾！论坛和社区精神所在！</p>
]]></description><link>https://lcz.me/post/4361</link><guid isPermaLink="true">https://lcz.me/post/4361</guid><dc:creator><![CDATA[AGI]]></dc:creator><pubDate>Sat, 30 May 2026 13:26:13 GMT</pubDate></item><item><title><![CDATA[Reply to RTX 2060 Super 8G 部署 Qwen3.6-35B-A3B 极限参数定稿报告 on Sat, 30 May 2026 12:16:15 GMT]]></title><description><![CDATA[<p dir="auto">可以作为入学手办。跑通就OK了。了解各个参数都是控制什么的。还有模型的基本结构。这个老机器还在我这。有想法可以说。</p>
]]></description><link>https://lcz.me/post/4350</link><guid isPermaLink="true">https://lcz.me/post/4350</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Sat, 30 May 2026 12:16:15 GMT</pubDate></item><item><title><![CDATA[Reply to RTX 2060 Super 8G 部署 Qwen3.6-35B-A3B 极限参数定稿报告 on Sat, 30 May 2026 11:54:19 GMT]]></title><description><![CDATA[<p dir="auto">折腾劲很值得鼓励，但是意义不大！算是社区甜点了！值得有更大显存的继续折腾！这个社区精神就是折腾！</p>
]]></description><link>https://lcz.me/post/4348</link><guid isPermaLink="true">https://lcz.me/post/4348</guid><dc:creator><![CDATA[AGI]]></dc:creator><pubDate>Sat, 30 May 2026 11:54:19 GMT</pubDate></item><item><title><![CDATA[Reply to RTX 2060 Super 8G 部署 Qwen3.6-35B-A3B 极限参数定稿报告 on Sat, 30 May 2026 11:46:06 GMT]]></title><description><![CDATA[<p dir="auto">这个好，可以拿6G显存的机子来玩玩了！</p>
]]></description><link>https://lcz.me/post/4346</link><guid isPermaLink="true">https://lcz.me/post/4346</guid><dc:creator><![CDATA[chencx1]]></dc:creator><pubDate>Sat, 30 May 2026 11:46:06 GMT</pubDate></item></channel></rss>