<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[3070ti跑 Qwen3.6-35B-A3B（全程Claude指导，包括帖子）]]></title><description><![CDATA[<h1>【实测】3070Ti 8G 显存跑 Qwen3.6-35B-A3B，并在另一台 Linux 上用 Hermes 调用（含踩坑全过程）</h1>
<p dir="auto">最近看到论坛里有人用 4060 8G 跑起了 Qwen3.6-35B-A3B 这个 MoE 模型，速度还挺能打，我手里正好有张 3070Ti（也是 8G 显存），就想着照葫芦画瓢搞一套——而且我的需求稍微复杂点：<strong>模型跑在我的 Windows 台式机上，但我想在另一台 Linux 机器上用 Hermes Agent 来调用它</strong>，两台在同一个局域网里。</p>
<p dir="auto">折腾了一个晚上，端到端跑通了。中间踩了一个挺反直觉的坑，速度一度只有 6 t/s，差点以为这卡不行，最后定位到是个参数问题，救回到了 33~38 t/s。把全过程记一下，给同样 8G 卡入门的朋友省点时间。</p>
<p dir="auto">先放结论：<strong>8G 显存完全能跑这个 35B 的 MoE 模型，3070Ti 短上下文生成稳定 33~38 t/s</strong>，和那位用 4060 的老哥水平一致。</p>
<hr />
<h2>我的配置</h2>
<ul>
<li><strong>模型机</strong>：Windows 台式机，RTX 3070Ti（8G），32G 内存</li>
<li><strong>客户机</strong>：另一台 Linux，同一局域网</li>
<li><strong>模型</strong>：Qwen3.6-35B-A3B-APEX-MTP-I-Mini.gguf（约 13G）</li>
<li><strong>推理框架</strong>：llama.cpp（Windows CUDA 预编译包）</li>
<li><strong>Agent</strong>：Hermes（装在 Linux 那台）</li>
</ul>
<p dir="auto">原理我也是现学的：这模型虽然标着 35B，但它是 MoE 架构，每个 token 只激活约 3B 参数。llama.cpp 可以把大部分用不上的"专家层"卸载到内存里，显存只留必要的部分，再开 MTP（多 token 预测）投机解码提速——这样 8G 小卡就能跑起来了。</p>
<hr />
<h2>第一步：装 llama.cpp</h2>
<p dir="auto">去官方 release 页面下载：<code>https://github.com/ggml-org/llama.cpp/releases</code></p>
<p dir="auto">我是 N 卡，所以下 CUDA 版本。这里有个点要注意——<strong>CUDA 版本要下两个文件</strong>：一个主程序包，一个 cudart 运行库包。我 <code>nvidia-smi</code> 显示 CUDA 13.1，就下了 CUDA 13.1 那组（如果你的显示是 12 点几，就下 CUDA 12.4 那组，兼容性更广）。</p>
<p dir="auto"><strong>第一个坑（轻微）</strong>：这俩 zip 必须<strong>解压到同一个文件夹</strong>，让里面的 <code>cudart64_*.dll</code> 和 <code>llama-server.exe</code> 待在一起，不然启动报缺 DLL。我一开始差点分开放了。</p>
<p dir="auto">解压完先验证一下：</p>
<pre><code class="language-powershell">.\llama-server.exe --version
.\llama-server.exe --list-devices
</code></pre>
<p dir="auto"><code>--list-devices</code> 能看到我的 3070Ti，说明 CUDA 链路通了，放心继续。</p>
<hr />
<h2>第二步：下模型</h2>
<p dir="auto">HuggingFace 仓库：<code>mudler/Qwen3.6-35B-A3B-APEX-MTP-GGUF</code>，进「Files and versions」标签。</p>
<p dir="auto">里面一堆量化档，我对着 8G 显存选了 <strong>I-Mini</strong>（约 13G）。这里我手抖了一下，第一次下成了 <strong>I-Nano</strong>（更小、更省但质量略低），发现下错赶紧重下了 I-Mini。提醒大家认准文件名里是 <strong>Mini</strong> 不是 <strong>Nano/Compact/Balanced</strong>。</p>
<p dir="auto">放到 <code>C:\models\</code>，下完用 <code>dir</code> 核对一下文件名和大小，别下到半截。</p>
<hr />
<h2>第三步：写 preset.ini</h2>
<p dir="auto">在 <code>C:\models\</code> 建个 <code>preset.ini</code>。Windows 隐藏后缀，我直接用 PowerShell 生成，免得存成 <code>.txt</code>：</p>
<pre><code class="language-ini">version = 1

[*]
parallel = 1
n-gpu-layers = 999
ctx-size = 65536
predict = 4096
flash-attn = on
cache-type-k = q8_0
cache-type-v = q8_0
threads = 8
threads-batch = 16

[qwen36-apex-mtp-mini]
model = C:\models\Qwen3.6-35B-A3B-APEX-MTP-I-Mini.gguf
load-on-startup = true
n-cpu-moe = 30
spec-type = draft-mtp
spec-draft-n-max = 3
cache-type-k-draft = q8_0
cache-type-v-draft = q8_0
</code></pre>
<p dir="auto">（注意：这是我<strong>最初</strong>抄的参数，<code>n-cpu-moe = 30</code>——这个值后面就是我踩坑的元凶，往下看。）</p>
<hr />
<h2>第四步：起服务，本机自测</h2>
<p dir="auto">我先用 <code>127.0.0.1</code> 起，确认模型本身能跑，再考虑开局域网：</p>
<pre><code class="language-powershell">.\llama-server.exe --models-preset C:\models\preset.ini --host 127.0.0.1 --port 8888
</code></pre>
<p dir="auto">等了几十秒加载完，日志出现 listening，浏览器开 <code>http://127.0.0.1:8888</code> 能聊天了。当时挺高兴，以为大功告成。</p>
<hr />
<h2>第五步：测速，傻眼了——只有 6 t/s</h2>
<p dir="auto">我顺手测了下速度，看 server 日志：</p>
<pre><code>tg = 6.55 t/s
tg = 6.40 t/s
tg = 6.00 t/s
</code></pre>
<p dir="auto"><strong>6 t/s？！</strong> 那位 4060 老哥都能跑 35~38，我 3070Ti 带宽比他高，怎么反而只有他六分之一？当时第一反应是"GPU 没用上、全在 CPU 上跑"。</p>
<p dir="auto">跑了个 <code>nvidia-smi</code> 一看，<strong>结果跟我想的完全相反</strong>：</p>
<pre><code>Memory-Usage: 7920MiB / 8192MiB
GPU-Util: 92%
</code></pre>
<p dir="auto">GPU 不但在用，还满载 92%，显存也几乎占满了——<strong>7920/8192，只剩 200 多 MB</strong>。</p>
<p dir="auto">这下我懂了：不是 GPU 没干活，是<strong>显存爆了</strong>。太多专家层挤进了 8G 显存，把它撑到接近满，于是系统疯狂在显存和内存之间倒腾数据，速度直接崩。</p>
<p dir="auto">那位 4060 老哥的帖子里其实早就警告过这个：<code>n-cpu-moe</code> 调太低，让太多专家进 GPU，显存反而拉满、速度反而掉。我用的 <code>n-cpu-moe = 30</code> 对我这台就是太低了——因为我桌面上还开着一堆 Edge、Chrome、WPS，它们本身就偷占了显存，留给模型的空间更少，所以同样的参数我比他更容易爆。</p>
<hr />
<h2>第六步：调参，救回 38 t/s</h2>
<p dir="auto">解法很简单：<strong>把 <code>n-cpu-moe</code> 调大</strong>，把更多专家赶到内存里去（我有 32G 内存，扛得住）。</p>
<p dir="auto">把 <code>n-cpu-moe = 30</code> 改成 <code>38</code>，重启服务，再测：</p>
<pre><code>tg = 38.69 t/s
tg = 35.69 t/s
tg = 33.00 t/s
</code></pre>
<p dir="auto"><strong>回来了！</strong> 33~38 t/s，跟 4060 老哥一个水平。再看显存：</p>
<pre><code>Memory-Usage: 5547MiB / 8192MiB
</code></pre>
<p dir="auto">从 7920 降到 5547，腾出 2.6G 余量，不再爆显存，速度自然就上来了。</p>
<p dir="auto"><strong>这是整个过程最值得记的一条经验：</strong></p>
<blockquote>
<p dir="auto">8G 卡上<strong>不是"塞进 GPU 的越多越快"</strong>。显存一旦逼近爆满，速度反而断崖式下跌。甜点是显存占到 6~7G、留 1G 以上余量。</p>
<ul>
<li>显存爆/慢 → <strong>调大</strong> <code>n-cpu-moe</code>（更多专家去内存，省显存）</li>
<li>显存还很空 → <strong>调小</strong> <code>n-cpu-moe</code>（多留专家在显存，更快）</li>
</ul>
<p dir="auto">另外测速前<strong>把浏览器、WPS 那些吃显存的程序关掉</strong>，能多还给模型几百 MB~1G，可以把 <code>n-cpu-moe</code> 调得更激进。</p>
</blockquote>
<p dir="auto">我这台桌面占用大，所以甜点比那位老哥的 30 高，落在 38 左右。每台机器不一样，大家按 <code>nvidia-smi</code> 自己微调。</p>
<hr />
<h2>第七步：对局域网开放</h2>
<p dir="auto">模型端搞定，接下来要让 Linux 那台连过来。</p>
<p dir="auto">先把服务从 <code>127.0.0.1</code> 改成 <code>0.0.0.0</code> 重启（这俩的区别是：<code>127.0.0.1</code> 只有本机能连，<code>0.0.0.0</code> 才对局域网开放）：</p>
<pre><code class="language-powershell">.\llama-server.exe --models-preset C:\models\preset.ini --host 0.0.0.0 --port 8888
</code></pre>
<p dir="auto">然后 <code>ipconfig</code> 查台式机的局域网 IP（我的是 <code>192.168.1.10</code>）。这里插一句：<code>ipconfig</code> 里可能有好几个 IP，那个 <code>198.18.x.x</code> 是代理软件的虚拟网卡、<code>172.x.x.x</code> 是 WSL 的，都不是真实局域网 IP，别选错。认准「以太网/WLAN」那个 <code>192.168.x.x</code>。</p>
<p dir="auto">最关键的一步——<strong>放行防火墙</strong>，这是跨机器连不上最常见的坑。管理员开 PowerShell：</p>
<pre><code class="language-powershell">New-NetFirewallRule -DisplayName "llama-server 8888" -Direction Inbound -Protocol TCP -LocalPort 8888 -Action Allow
</code></pre>
<p dir="auto">顺便确认台式机的网络是「专用网络」不是「公用网络」，公用网络防火墙会更严。</p>
<hr />
<h2>第八步：Linux 上验证 + 装 Hermes</h2>
<p dir="auto">我没急着装 Hermes，先在 Linux 上 <code>curl</code> 戳一下，确认网络真通了（把网络问题和软件问题分开）：</p>
<pre><code class="language-bash">curl http://192.168.1.10:8888/v1/models
</code></pre>
<p dir="auto">返回了一段 JSON，里面有模型名——通了！这一步过了，后面就是纯软件配置，不会再有网络玄学。</p>
<p dir="auto">然后装 Hermes（Linux 上前置只要 Git，其余自动装，具体命令照官方 README 走），配模型：</p>
<pre><code class="language-bash">hermes model
</code></pre>
<p dir="auto">选自定义模型，填：</p>
<ul>
<li><strong>Base URL</strong>：<code>http://192.168.1.10:8888/v1</code> —— 注意填台式机的真实 IP，<strong>千万别填 127.0.0.1</strong>，在 Linux 上那指的是 Linux 自己，连不到台式机。</li>
<li><strong>API Key</strong>：<code>local</code>（占位符，不能留空）</li>
</ul>
<p dir="auto">它自动拉出模型列表，选中，终端发句话——<strong>能正常回话了，端到端打通！</strong> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f389.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--tada" style="height:23px;width:auto;vertical-align:middle" title="🎉" alt="🎉" /></p>
<hr />
<h2>一个小插曲：中途 Linux 突然连不上</h2>
<p dir="auto">中间我为了反复调 <code>n-cpu-moe</code> 测速，重启服务时图省事用了 <code>127.0.0.1</code>，结果 Linux 那台就连不上了。排查了一下发现就是这个原因——<strong>改回 <code>0.0.0.0</code> 就好了</strong>。所以大家记住：本机自测用 <code>127.0.0.1</code>，给别的机器用必须 <code>0.0.0.0</code>，重启别记错地址。</p>
<hr />
<h2>关于 Agent 速度的一点提醒</h2>
<p dir="auto">接进 Hermes 跑起来之后，会明显感觉<strong>比浏览器里慢，而且每轮回答开头要先等几秒</strong>。一开始我以为又出问题了，后来明白这是正常的：</p>
<p dir="auto">Agent 每轮会把系统提示 + 工具定义 + 历史一起发过来，动辄上万 token。<strong>真正的瓶颈是处理这一大段输入（prompt processing），不是吐字速度。</strong> 8G 卡处理长输入本身就慢。这个目前我还在优化，思路是精简工具、控制上下文长度、必要时把 ctx-size 从 65536 降到 32768，等我调出更好的结果再来更新。</p>
<hr />
<h2>总结</h2>
<p dir="auto">整套下来其实不难，唯一的大坑就是 <code>n-cpu-moe</code> 那个反直觉的显存问题。给同样 8G 卡的朋友划重点：</p>
<ol>
<li>CUDA 包下两个（主程序 + cudart），解压到同一目录。</li>
<li>模型选 I-Mini（8G 显存合适）。</li>
<li><strong>速度慢先看 <code>nvidia-smi</code>，显存爆了就调大 <code>n-cpu-moe</code></strong>，别一上来怀疑 GPU 没用上。</li>
<li>甜点 = 显存占 6~7G、留 1G 余量；测速前关掉吃显存的后台程序。</li>
<li>跨机器：服务用 <code>0.0.0.0</code>、放行防火墙、Linux 先 <code>curl</code> 验证再装 Hermes。</li>
<li>Base URL 填模型机真实 IP，不是 127.0.0.1。</li>
</ol>
<p dir="auto">3070Ti 8G 跑 35B MoE，33~38 t/s，香。有问题欢迎楼下交流~</p>
]]></description><link>https://lcz.me/topic/250/3070ti跑-qwen3.6-35b-a3b-全程claude指导-包括帖子</link><generator>RSS for Node</generator><lastBuildDate>Sun, 31 May 2026 05:50:46 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/250.rss" rel="self" type="application/rss+xml"/><pubDate>Fri, 22 May 2026 03:04:34 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 3070ti跑 Qwen3.6-35B-A3B（全程Claude指导，包括帖子） on Thu, 28 May 2026 08:14:59 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/%E8%80%97%E5%A5%87%E5%AE%B3%E6%AD%BB%E7%8C%AB" aria-label="Profile: 耗奇害死猫">@<bdi>耗奇害死猫</bdi></a><br />
问题的关键是，你弄这么一套，他是跑啥业务的？<br />
他能做什么呢？</p>
]]></description><link>https://lcz.me/post/4032</link><guid isPermaLink="true">https://lcz.me/post/4032</guid><dc:creator><![CDATA[kukudelaodie]]></dc:creator><pubDate>Thu, 28 May 2026 08:14:59 GMT</pubDate></item><item><title><![CDATA[Reply to 3070ti跑 Qwen3.6-35B-A3B（全程Claude指导，包括帖子） on Thu, 28 May 2026 07:40:11 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/%E5%BC%A0%E6%89%8D%E5%9B%BD" aria-label="Profile: 张才国">@<bdi>张才国</bdi></a> 我也3060，跑起来飞快，就是我接不了hermes</p>
]]></description><link>https://lcz.me/post/4029</link><guid isPermaLink="true">https://lcz.me/post/4029</guid><dc:creator><![CDATA[gg lib]]></dc:creator><pubDate>Thu, 28 May 2026 07:40:11 GMT</pubDate></item><item><title><![CDATA[Reply to 3070ti跑 Qwen3.6-35B-A3B（全程Claude指导，包括帖子） on Tue, 26 May 2026 10:34:01 GMT]]></title><description><![CDATA[<p dir="auto">3060 12G  n-cpu-moe = 26  显存占用11341M  平均速度是31 t/s  驱动小龙虾和hermes还真是慢,不过勉强能用,多等一会也就有答案了,图片没有实验,平时工作没有出图的需求,</p>
]]></description><link>https://lcz.me/post/3780</link><guid isPermaLink="true">https://lcz.me/post/3780</guid><dc:creator><![CDATA[张才国]]></dc:creator><pubDate>Tue, 26 May 2026 10:34:01 GMT</pubDate></item><item><title><![CDATA[Reply to 3070ti跑 Qwen3.6-35B-A3B（全程Claude指导，包括帖子） on Mon, 25 May 2026 22:26:53 GMT]]></title><description><![CDATA[<p dir="auto">我用5060Ti 16gb，跑这个还真的很快。 n-cpu-moe = 22 时，平均速度是60 t/s，  n-cpu-moe = 30 时，平均速度时50 t/s。但不知道稳定性和智商如何。 因为无法上传图片（选项时灰色的），我用了unsloth的Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf， 外加图形模型mmproj-BF16.gguf，n-cpu-moe = 22 作用可以达到最佳速度，大约 50 t/s。</p>
]]></description><link>https://lcz.me/post/3669</link><guid isPermaLink="true">https://lcz.me/post/3669</guid><dc:creator><![CDATA[wanxx005]]></dc:creator><pubDate>Mon, 25 May 2026 22:26:53 GMT</pubDate></item><item><title><![CDATA[Reply to 3070ti跑 Qwen3.6-35B-A3B（全程Claude指导，包括帖子） on Mon, 25 May 2026 14:59:13 GMT]]></title><description><![CDATA[<p dir="auto">这个作业要抄一下,我3060 12G的卡 可以试试你的方案,等我回来给你汇报结果啊</p>
]]></description><link>https://lcz.me/post/3614</link><guid isPermaLink="true">https://lcz.me/post/3614</guid><dc:creator><![CDATA[张才国]]></dc:creator><pubDate>Mon, 25 May 2026 14:59:13 GMT</pubDate></item><item><title><![CDATA[Reply to 3070ti跑 Qwen3.6-35B-A3B（全程Claude指导，包括帖子） on Fri, 22 May 2026 09:06:55 GMT]]></title><description><![CDATA[<p dir="auto">精品帖子，这是论坛的意义，就是分享了之后其他人过来实践。<br />
原帖：<a href="https://lcz.me/topic/213/rtx4060-8g%E6%98%BE%E5%AD%98-%E8%BF%90%E8%A1%8Cqwen3.6-35b-a3b-apex-mtp%E5%8C%85%E5%90%AB%E4%B8%A4%E7%A7%8D%E6%96%B9%E5%BC%8F%E5%8F%8A%E6%B5%8B%E8%AF%95%E7%BB%93%E6%9E%9C">https://lcz.me/topic/213/rtx4060-8g显存-运行qwen3.6-35b-a3b-apex-mtp包含两种方式及测试结果</a><br />
置顶！</p>
]]></description><link>https://lcz.me/post/3061</link><guid isPermaLink="true">https://lcz.me/post/3061</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Fri, 22 May 2026 09:06:55 GMT</pubDate></item><item><title><![CDATA[Reply to 3070ti跑 Qwen3.6-35B-A3B（全程Claude指导，包括帖子） on Fri, 22 May 2026 04:03:31 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/%E8%80%97%E5%A5%87%E5%AE%B3%E6%AD%BB%E7%8C%AB" aria-label="Profile: 耗奇害死猫">@<bdi>耗奇害死猫</bdi></a> 写得非常详细，赞一个！n-cpu-moe 这个坑确实反直觉——一般都会以为塞越多进 GPU 越快，结果显存爆了反而断崖式掉速。你用 38 那个点刚好卡在甜区，很典型的 8G 卡经验。</p>
<p dir="auto">关于你提到的 Agent 速度问题（prompt processing 慢），补充两个小技巧：</p>
<ol>
<li>
<p dir="auto">llama.cpp server 可以开 <code>--cont-batching</code>（默认就是开的），配合 <code>--parallel 1</code> 不用改，关键是<strong>把 ctx-size 降到 Agent 实际够用的大小</strong>。你用 Hermes 的话 16K~24K 通常就够一轮 Agent 调用，不用开 65536。短 ctx 的 prompt processing 会快很多。</p>
</li>
<li>
<p dir="auto">可以试试在 llama.cpp 里用 slot save/restore。先 warm up 一次把 system prompt + tool definitions 跑完，然后 <code>/slotsave 0 /tmp/slot</code> 存下来，之后每次新会话先 <code>/slotrestore 0 /tmp/slot</code> 加载，省掉反复处理那几万 token 系统提示的时间。不过这个要开 <code>--slot-save-path</code> 参数。</p>
</li>
</ol>
<p dir="auto">你可以先试降低 ctx-size，效果最直接。另外 Hermes 模型配置里把不必要的 tool 关掉也能减少每轮的输入长度。</p>
]]></description><link>https://lcz.me/post/2980</link><guid isPermaLink="true">https://lcz.me/post/2980</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Fri, 22 May 2026 04:03:31 GMT</pubDate></item></channel></rss>