<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[本地大模型部署记录：Qwen3.6-27B MTP 在双 7900 XTX 上的推理优化]]></title><description><![CDATA[<p dir="auto"><img src="https://upload.lcz.me/uploads/47780ec1-2ad1-4f8e-b4d8-9d442e4ef18f.jpg" alt="062301.jpg" class=" img-fluid img-markdown" /> <img src="https://upload.lcz.me/uploads/cbb98494-1e86-4d23-880a-e3706bd5c588.jpg" alt="062302.jpg" class=" img-fluid img-markdown" /> <img src="https://upload.lcz.me/uploads/ee05fff4-523c-474c-9da6-5d8cf7843a46.jpg" alt="062303.jpg" class=" img-fluid img-markdown" /> <img src="https://upload.lcz.me/uploads/623aba57-fb2b-402a-bd5c-85f1c6ab5738.jpg" alt="062304.jpg" class=" img-fluid img-markdown" /> <img src="https://upload.lcz.me/uploads/c281aa4a-3ac5-4fad-9576-dd72eab41728.jpg" alt="062305.jpg" class=" img-fluid img-markdown" /> <img src="https://upload.lcz.me/uploads/7fc3fa79-7a31-4b5b-a8f2-4d180b9395be.jpg" alt="062306.jpg" class=" img-fluid img-markdown" /></p>
<p dir="auto">本地大模型部署记录：Qwen3.6-27B MTP 在双 7900 XTX 上的推理优化</p>
<p dir="auto">硬件：X99 主板 + Intel Xeon E5-2666 v3 + 双 AMD Radeon RX 7900 XTX (各 24GB VRAM)<br />
系统：Ubuntu 24.04 LTS，ROCm 7.2.3，PyTorch 2.12.0<br />
模型：Qwen3.6-27B-UD-Q8_K_XL.gguf (33GB，内置 MTP 规范解码头)<br />
推理引擎：llama.cpp (upstream，支持 ROCm HIP)</p>
<hr />
<p dir="auto">一、背景与目标</p>
<p dir="auto">在一台配备双 7900 XTX (各 24GB) 的 PC 上部署 Qwen3.6-27B 模型，目标是达到 35+ tokens/s 的推理速度，并支持粤语对话及工具调用。</p>
<p dir="auto">最初使用 DFlash（一个基于 llama.cpp 的 fork），利用其 dual GPU + spec decode 实现加速。但在运行过程中发现 spec decode 失效，速度从原本的 ~35 t/s 跌至 ~23 t/s。</p>
<hr />
<p dir="auto">二、硬件与系统配置</p>
<p dir="auto">硬件规格</p>
<ul>
<li>CPU：Intel Xeon E5-2666 v3 (Haswell-E, 10C/20T)</li>
<li>主板：X99-CD3 GAMING (山寨板，BIOS 解锁 PCIe 4.0)</li>
<li>GPU 0：RX 7900 XTX (24GB) — 05:00.0，PCIe 4.0 x16</li>
<li>GPU 1：RX 7900 XTX (24GB) — 08:00.0，PCIe 4.0 x16</li>
<li>内存：126GB DDR4</li>
</ul>
<p dir="auto">PCIe 总线分析</p>
<p dir="auto">为什么这是 PCIe 4.0？</p>
<p dir="auto">两张显卡均运行在 PCIe 4.0 x16 (16 GT/s)。这是通过以下方式确认的：</p>
<p dir="auto">确认方法 1 — lspci（需要 sudo）：<br />
sudo lspci -vvv -s 05:00.0 | grep -E 'LnkSta|LnkCap'</p>
<p dir="auto">输出：<br />
LnkCap: Port #0, Speed 16GT/s, Width x16<br />
LnkSta: Speed 16GT/s, Width x16</p>
<p dir="auto">LnkSta 显示的是实际协商后的链路状态，不是理论最大值。数值含义：</p>
<ul>
<li>8 GT/s = PCIe 3.0 (每通道 8 GigaTransfers/秒)</li>
<li>16 GT/s = PCIe 4.0 (每通道 16 GigaTransfers/秒)</li>
</ul>
<p dir="auto">当前协商结果为 16 GT/s x16 = PCIe 4.0 无误。</p>
<p dir="auto">确认方法 2 — sysfs（无需 sudo）：<br />
cat /sys/class/drm/card0/device/current_link_speed</p>
<p dir="auto">输出：16.0 GT/s PCIe</p>
<p dir="auto">第二张显卡同理：<br />
cat /sys/class/drm/card1/device/current_link_speed</p>
<p dir="auto">输出：16.0 GT/s PCIe</p>
<p dir="auto">两张卡均运行于 PCIe 4.0 x16，双向带宽约 32 GB/s。</p>
<p dir="auto">为什么 X99 主板能跑 PCIe 4.0？</p>
<p dir="auto">按照 Intel 官方规格，X99 芯片组 + Haswell-E CPU (E5-2666 v3) 只支持 PCIe 3.0。那么为什么这张主板能跑 PCIe 4.0？</p>
<p dir="auto">关键在于这块 X99-CD3 GAMING 是所谓的"寨板"——由国内小厂（Huananzhi、Machinist 等）生产的 X99 兼容主板。</p>
<p dir="auto">Haswell-E CPU 内部的 PCIe 控制器物理上实际能支持 16 GT/s 的信号速率。Intel 在官方产品中通过 BIOS/固件将其锁定在 8 GT/s（PCIe 3.0），可能是出于平台稳定性或产品线划分的考虑。这些寨板厂商通过修改 BIOS，解除了 Intel 施加的这一软件限制，让 PCIe 控制器跑到了其物理能够达到的 16 GT/s。</p>
<p dir="auto">换句话说：这不是"魔改"硬件，而是解除了软件封印。Haswell-E 的 PCIe 控制器从设计上就具备 PCIe 4.0 的能力，只是 Intel 官方选择将其关闭。</p>
<p dir="auto">这对双 GPU 推理意味着什么</p>
<p dir="auto">PCIe 4.0 x16 提供约 32 GB/s 的双向带宽，是 PCIe 3.0 x16 (16 GB/s) 的两倍。在 dual GPU layer split 模式下：</p>
<ul>
<li>每步推理需要在 GPU 0 和 GPU 1 之间传输 activation tensors</li>
<li>27B 模型约 60 层，每层 activation 约 200MB</li>
<li>短 prompt (30 tokens)：只传输几次，带宽差异不明显</li>
<li>长 prompt (200 tokens)：200+ 次累加传输，PCIe 4.0 的带宽翻倍能将 sync 延迟缩短约一半</li>
<li>对于千 token 级别的生成长度，差距更加显著</li>
</ul>
<p dir="auto">如果运行在 PCIe 3.0 上，长 prompt 的速度预计会再下降 10-25%。</p>
<p dir="auto">软件栈</p>
<ul>
<li>ROCm 7.2.3 (系统级安装，无需额外配置)</li>
<li>llama.cpp：从上游源码编译，启用 -DLLAMA_HIPBLAS=ON</li>
<li>双 GPU tensor split：--tensor-split 1,1 + --split-mode layer</li>
</ul>
<hr />
<p dir="auto">三、推理引擎选型历程</p>
<p dir="auto">3.1 第一阶段：DFlash (失败)</p>
<p dir="auto">DFlash 是 llama.cpp 的一个 fork，主打 dual GPU + spec decode 加速。初期曾达到 ~35 t/s 的速度。</p>
<p dir="auto">问题：</p>
<ul>
<li>Spec decode 的 acceptance rate 从正常的 ~60% 暴跌至 14-28%</li>
<li>速度降至 ~23 t/s</li>
<li>粤语输出出现乱码 (mojibake)</li>
<li>尝试更新 submodule、加参数均无效</li>
</ul>
<p dir="auto">根因分析：<br />
DFlash 的 spec decode 实现基于 llama.cpp 的旧版本 commit 7d9a95d。官方 llama.cpp 已在 GitHub issue #23268、#23544 中修复了 spec decode 超时和低 acceptance rate 的问题，但 DFlash 没有合并这些修复。尝试 cherry-pick upstream fix d14ce3d 时发现大量冲突，放弃修复。</p>
<p dir="auto">结论： 问题不在 ROCm 版本或 GPU 配置，而是 DFlash 自身的 implementation bug。开源社区也确认了这一点。</p>
<p dir="auto">3.2 第二阶段：切换至上游 llama.cpp + MTP</p>
<p dir="auto">MTP (Multi-Token Prediction) 是 Qwen3.6 模型内置的规范解码 (speculative decoding) 能力：</p>
<ul>
<li>模型本身包含多个预测头，可以直接生成多个候选 token</li>
<li>不需要外部 draft model</li>
<li>与 --spec-type draft-mtp 配合使用</li>
</ul>
<p dir="auto">选择 UD-Q8_K_XL (33GB) 量化：</p>
<ul>
<li>用户指定，质量远高于 Q4_K_M</li>
<li>Q8 保留了更好的精度，适合粤语和复杂指令</li>
<li>代价是 VRAM 占用大，几乎占满两张 24GB 显卡</li>
</ul>
<hr />
<p dir="auto">四、最终配置</p>
<p dir="auto">llama-server 启动参数</p>
<p dir="auto">llama-server <br />
--model Qwen3.6-27B-UD-Q8_K_XL.gguf <br />
--port 8080 <br />
--host 0.0.0.0 <br />
--n-gpu-layers 99 <br />
--flash-attn on <br />
--split-mode layer <br />
--tensor-split 1,1 <br />
--ctx-size 65536 <br />
--batch-size 2048 <br />
--ubatch-size 512 <br />
--spec-type draft-mtp <br />
--spec-draft-n-max 6 <br />
--temp 0 <br />
--parallel 1 <br />
--no-mmap <br />
--reasoning off</p>
<p dir="auto">关键参数说明：</p>
<ul>
<li>--split-mode layer：按层分割到双 GPU (比 row 模式更好)</li>
<li>--tensor-split 1,1：平均分配到两张显卡</li>
<li>--spec-type draft-mtp：启用 Qwen3.6 内置的 MTP 规范解码</li>
<li>--spec-draft-n-max 6：每步生成 6 个 draft tokens (1/2)<br />
[2026/5/23 下午7:33] HKT_Bot: - --ctx-size 65536：最大上下文 64K tokens</li>
<li>--flash-attn on：启用 Flash Attention 节省 VRAM</li>
</ul>
<p dir="auto">Systemd 服务配置</p>
<p dir="auto">[Unit]<br />
Description=llama-server<br />
After=network.target</p>
<p dir="auto">[Service]<br />
Type=simple<br />
User=ic<br />
ExecStart=/home/ic/llama.cpp/build/bin/llama-server <br />
--model /home/ic/.cache/huggingface/hub/models--unsloth--Qwen3.6-27B-MTP-GGUF/snapshots/b3a58239d8d40b953e34936c9afeb28baa518230/Qwen3.6-27B-UD-Q8_K_XL.gguf <br />
--port 8080 --host 0.0.0.0 --n-gpu-layers 99 --flash-attn on <br />
--split-mode layer --tensor-split 1,1 --ctx-size 65536 <br />
--batch-size 2048 --ubatch-size 512 <br />
--spec-type draft-mtp --spec-draft-n-max 6 <br />
--temp 0 --parallel 1 --no-mmap --reasoning off<br />
Restart=on-failure<br />
RestartSec=5</p>
<p dir="auto">[Install]<br />
WantedBy=default.target</p>
<hr />
<p dir="auto">五、性能测试结果</p>
<p dir="auto">5.1 速度基准</p>
<ul>
<li>短 prompt (~30 tokens)：35-57 t/s，~92% MTP Acceptance，最高峰值，cold start 后稳定</li>
<li>中 prompt (~100 tokens)：40-45 t/s，~65%，典型日常使用场景</li>
<li>长 prompt (~200 tokens)：20-23 t/s，~21%，长生成时 draft 偏移，reject 增多</li>
<li>粤语对话 (150 tokens)：~22 t/s，~21%，粤语输出正常，无乱码</li>
</ul>
<p dir="auto">5.2 与 DFlash 对比</p>
<ul>
<li>速度 (短)：DFlash ~25 t/s → llama.cpp 35-57 t/s</li>
<li>速度 (长)：DFlash ~23 t/s → llama.cpp 20-23 t/s (持平)</li>
<li>初始延迟：DFlash 低 → llama.cpp 较高 (33GB 模型加载慢)</li>
<li>模型质量：DFlash Q4 (损失大) → llama.cpp Q8 (几乎无损)</li>
<li>粤语支持：DFlash <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> 乱码 → llama.cpp <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> 正常</li>
<li>稳定性：DFlash <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> spec decode 间歇性崩溃 → llama.cpp <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> 稳定运行</li>
</ul>
<p dir="auto">5.3 长短 prompt 速度差异分析</p>
<p dir="auto">长 prompt (200 tokens) 速度明显低于短 prompt (30 tokens)，原因有三：</p>
<ol>
<li>
<p dir="auto">MTP acceptance rate 随生成长度下降</p>
<ul>
<li>短 prompt：draft token 与 main model 的分布接近，~92% 被接受</li>
<li>随着 context 增长，draft 预测偏离 main model 越来越大，acceptance 降至 ~21%</li>
<li>更多 reject → 更多 main model evaluation → 更慢</li>
</ul>
</li>
<li>
<p dir="auto">KV Cache 增长</p>
<ul>
<li>30 tokens：attention matrix 小，VRAM bandwidth 充足</li>
<li>200 tokens：attention matrix 增长 ~44 倍，GPU 需要搬运更多数据</li>
<li>Q8 33GB 模型已经几乎占满 dual 24GB VRAM，KV cache 空间紧张</li>
</ul>
</li>
<li>
<p dir="auto">双 GPU layer split 的 PCIe 同步开销</p>
<ul>
<li>每步推理需要在 GPU 0<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2194.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--left_right_arrow" style="height:23px;width:auto;vertical-align:middle" title="↔" alt="↔" />1 之间传输 activation data</li>
<li>短 prompt：只传输几次，开销可忽略</li>
<li>长 prompt：200+ 次累加传输，PCIe latency 显著</li>
</ul>
</li>
</ol>
<p dir="auto">5.4 GPU 资源使用</p>
<ul>
<li>GPU 0：VRAM 24GB 总量，~22.7 GB (95%) 使用，剩余 ~1.3 GB，PCIe 16.0 GT/s x16</li>
<li>GPU 1：VRAM 24GB 总量，~18.9 GB (79%) 使用，剩余 ~5.1 GB，PCIe 16.0 GT/s x16</li>
</ul>
<p dir="auto">剩余 VRAM 约可容纳 5-20K tokens 的 KV cache。超过此量会 spill 到系统 RAM (126GB)，导致速度进一步下降。</p>
<hr />
<p dir="auto">六、遇到的关键问题</p>
<p dir="auto">6.1 DFlash spec decode 失效</p>
<ul>
<li>症状： acceptance rate 14-28%，速度 ~23 t/s</li>
<li>根因： DFlash 基于旧版 llama.cpp (commit 7d9a95d)，未合入上游修复 (d14ce3d #23268 #23544)</li>
<li>处理： 放弃 DFlash，转用上游 llama.cpp + MTP GGUF</li>
</ul>
<p dir="auto">6.2 Qwen3.6 粤语支持</p>
<p dir="auto">最初在 DFlash 上粤语输出为乱码 (mojibake)。切换到 llama.cpp MTP Q8_K_XL 后，粤语完全正常：<br />
"你好呀！今日天氣幾好，你有冇出街行下？"</p>
<p dir="auto">6.3 Qwen3.6 工具调用限制</p>
<p dir="auto">Qwen3.6 模型的工具定义数量有限 —— 实测约 6-7 个 tool definitions 为上限，超过后会进入无限重复循环。这与 Hermes Agent 使用的 30+ 工具不兼容。</p>
<p dir="auto">6.4 上下文长度设置</p>
<p dir="auto">配置了 --ctx-size 65536 (64K tokens)，但实际可用长度受限于 VRAM：</p>
<ul>
<li>33GB Q8 模型已占用绝大部分 VRAM (GPU0 95%, GPU1 79%)</li>
<li>剩余 VRAM 不足以支持满 64K 的 KV cache</li>
</ul>
<hr />
<p dir="auto">七、总结</p>
<p dir="auto">从 DFlash 切换到上游 llama.cpp + MTP GGUF 是一个正确的决策：</p>
<ul>
<li>速度：短 prompt 提升至 35-57 t/s，恢复原有水平</li>
<li>质量：Q4 → Q8，精度大幅提升</li>
<li>粤语：<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> → <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> 完美支持</li>
<li>稳定性：<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> 频繁崩溃 → <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> 持续稳定运行</li>
<li>维护性：DFlash 已停更多年的 fork → upstream 持续更新</li>
</ul>
<p dir="auto">最终 verdict： Qwen3.6-27B Q8_K_XL 在双 7900 XTX 上通过 llama.cpp + MTP 实现了高性能本地推理，短 prompt 达到 35-57 t/s，长 prompt 20-23 t/s，粤语正常。</p>
]]></description><link>https://lcz.me/topic/271/本地大模型部署记录-qwen3.6-27b-mtp-在双-7900-xtx-上的推理优化</link><generator>RSS for Node</generator><lastBuildDate>Wed, 01 Jul 2026 12:08:38 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/271.rss" rel="self" type="application/rss+xml"/><pubDate>Sat, 23 May 2026 03:42:57 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 本地大模型部署记录：Qwen3.6-27B MTP 在双 7900 XTX 上的推理优化 on Sun, 24 May 2026 02:22:02 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/chan-ivan" aria-label="Profile: Chan-Ivan">@<bdi>Chan-Ivan</bdi></a> <a href="/post/3201">说</a>:</p>
<p dir="auto">剩余 VRAM 不足以支持满 64K 的 KV cache</p>
</blockquote>
<p dir="auto">KV cache 做 TurboQuant 量化，看你的配置應該可以放到 256K context</p>
]]></description><link>https://lcz.me/post/3341</link><guid isPermaLink="true">https://lcz.me/post/3341</guid><dc:creator><![CDATA[Chang Ching-Chun]]></dc:creator><pubDate>Sun, 24 May 2026 02:22:02 GMT</pubDate></item><item><title><![CDATA[Reply to 本地大模型部署记录：Qwen3.6-27B MTP 在双 7900 XTX 上的推理优化 on Sat, 23 May 2026 13:47:57 GMT]]></title><description><![CDATA[<p dir="auto">期待q6 q4的数据</p>
]]></description><link>https://lcz.me/post/3282</link><guid isPermaLink="true">https://lcz.me/post/3282</guid><dc:creator><![CDATA[Z Boss丶]]></dc:creator><pubDate>Sat, 23 May 2026 13:47:57 GMT</pubDate></item><item><title><![CDATA[Reply to 本地大模型部署记录：Qwen3.6-27B MTP 在双 7900 XTX 上的推理优化 on Sat, 23 May 2026 11:57:34 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/john-ato" aria-label="Profile: John-Ato">@<bdi>John-Ato</bdi></a> 謝謝， 我設了３了</p>
]]></description><link>https://lcz.me/post/3270</link><guid isPermaLink="true">https://lcz.me/post/3270</guid><dc:creator><![CDATA[Chan Ivan]]></dc:creator><pubDate>Sat, 23 May 2026 11:57:34 GMT</pubDate></item><item><title><![CDATA[Reply to 本地大模型部署记录：Qwen3.6-27B MTP 在双 7900 XTX 上的推理优化 on Sat, 23 May 2026 11:57:10 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/john-ato" aria-label="Profile: John-Ato">@<bdi>John-Ato</bdi></a> <a href="/post/3207">说</a>:</p>
<p dir="auto">split-mode tensor</p>
</blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/john-ato" aria-label="Profile: John-Ato">@<bdi>John-Ato</bdi></a> 好的， 有空試下</p>
]]></description><link>https://lcz.me/post/3269</link><guid isPermaLink="true">https://lcz.me/post/3269</guid><dc:creator><![CDATA[Chan Ivan]]></dc:creator><pubDate>Sat, 23 May 2026 11:57:10 GMT</pubDate></item><item><title><![CDATA[Reply to 本地大模型部署记录：Qwen3.6-27B MTP 在双 7900 XTX 上的推理优化 on Sat, 23 May 2026 11:55:28 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/johnnybegood" aria-label="Profile: johnnybegood">@<bdi>johnnybegood</bdi></a> Q8 感覺聴明点</p>
]]></description><link>https://lcz.me/post/3267</link><guid isPermaLink="true">https://lcz.me/post/3267</guid><dc:creator><![CDATA[Chan Ivan]]></dc:creator><pubDate>Sat, 23 May 2026 11:55:28 GMT</pubDate></item><item><title><![CDATA[Reply to 本地大模型部署记录：Qwen3.6-27B MTP 在双 7900 XTX 上的推理优化 on Sat, 23 May 2026 11:54:35 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/chang-ching-chun" aria-label="Profile: Chang-Ching-Chun">@<bdi>Chang-Ching-Chun</bdi></a> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f47c.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--angel" style="height:23px;width:auto;vertical-align:middle" title=":angel:" alt="👼" /></p>
]]></description><link>https://lcz.me/post/3266</link><guid isPermaLink="true">https://lcz.me/post/3266</guid><dc:creator><![CDATA[Chan Ivan]]></dc:creator><pubDate>Sat, 23 May 2026 11:54:35 GMT</pubDate></item><item><title><![CDATA[Reply to 本地大模型部署记录：Qwen3.6-27B MTP 在双 7900 XTX 上的推理优化 on Sat, 23 May 2026 11:54:09 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/iamvirus" aria-label="Profile: iamvirus">@<bdi>iamvirus</bdi></a> Q4 bug 用不到粤語, Qflash bug 連不到 Hermes Agent</p>
]]></description><link>https://lcz.me/post/3264</link><guid isPermaLink="true">https://lcz.me/post/3264</guid><dc:creator><![CDATA[Chan Ivan]]></dc:creator><pubDate>Sat, 23 May 2026 11:54:09 GMT</pubDate></item><item><title><![CDATA[Reply to 本地大模型部署记录：Qwen3.6-27B MTP 在双 7900 XTX 上的推理优化 on Sat, 23 May 2026 11:52:53 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/john-ato" aria-label="Profile: John-Ato">@<bdi>John-Ato</bdi></a> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f91e.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--hand_with_index_and_middle_fingers_crossed" style="height:23px;width:auto;vertical-align:middle" title=":hand_with_index_and_middle_fingers_crossed:" alt="🤞" /></p>
]]></description><link>https://lcz.me/post/3263</link><guid isPermaLink="true">https://lcz.me/post/3263</guid><dc:creator><![CDATA[Chan Ivan]]></dc:creator><pubDate>Sat, 23 May 2026 11:52:53 GMT</pubDate></item><item><title><![CDATA[Reply to 本地大模型部署记录：Qwen3.6-27B MTP 在双 7900 XTX 上的推理优化 on Sat, 23 May 2026 11:40:45 GMT]]></title><description><![CDATA[<p dir="auto">llama.cpp 均速50+（建议用q4，质量不差），就是prefill 单pflash还行，但是和dflash不能一起用。用agent多轮对话主要看pp，tg其实没那么重要</p>
]]></description><link>https://lcz.me/post/3252</link><guid isPermaLink="true">https://lcz.me/post/3252</guid><dc:creator><![CDATA[iamvirus]]></dc:creator><pubDate>Sat, 23 May 2026 11:40:45 GMT</pubDate></item><item><title><![CDATA[Reply to 本地大模型部署记录：Qwen3.6-27B MTP 在双 7900 XTX 上的推理优化 on Sat, 23 May 2026 06:39:56 GMT]]></title><description><![CDATA[<p dir="auto">感謝大大的測試分享，好人一生平安<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f44d.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--+1" style="height:23px;width:auto;vertical-align:middle" title=":+1:" alt="👍" /></p>
]]></description><link>https://lcz.me/post/3224</link><guid isPermaLink="true">https://lcz.me/post/3224</guid><dc:creator><![CDATA[Chang Ching-Chun]]></dc:creator><pubDate>Sat, 23 May 2026 06:39:56 GMT</pubDate></item><item><title><![CDATA[Reply to 本地大模型部署记录：Qwen3.6-27B MTP 在双 7900 XTX 上的推理优化 on Sat, 23 May 2026 05:08:14 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/chan-ivan" aria-label="Profile: Chan-Ivan">@<bdi>Chan-Ivan</bdi></a> <a href="/post/3201">说</a>:</p>
<p dir="auto">--spec-draft-n-max 6</p>
</blockquote>
<p dir="auto">官方建议不超过3 ，  6的话基本没法好好用了</p>
<p dir="auto">另外 Q4 量化（尤其有 NVFP4 的话）貌似不比 Q8 差多少， 速度还快， 不需要超长复杂编程的话不需要用Q8， 如果真的心理有想法的话， Q6 也足够了</p>
]]></description><link>https://lcz.me/post/3216</link><guid isPermaLink="true">https://lcz.me/post/3216</guid><dc:creator><![CDATA[johnnybegood]]></dc:creator><pubDate>Sat, 23 May 2026 05:08:14 GMT</pubDate></item><item><title><![CDATA[Reply to 本地大模型部署记录：Qwen3.6-27B MTP 在双 7900 XTX 上的推理优化 on Sat, 23 May 2026 03:53:11 GMT]]></title><description><![CDATA[<p dir="auto">如果硬件真的有pcie4.0x16,那么你可以 --split-mode tensor试试</p>
]]></description><link>https://lcz.me/post/3207</link><guid isPermaLink="true">https://lcz.me/post/3207</guid><dc:creator><![CDATA[John Ato]]></dc:creator><pubDate>Sat, 23 May 2026 03:53:11 GMT</pubDate></item><item><title><![CDATA[Reply to 本地大模型部署记录：Qwen3.6-27B MTP 在双 7900 XTX 上的推理优化 on Sat, 23 May 2026 03:52:10 GMT]]></title><description><![CDATA[<p dir="auto">--spec-draft-n-max 6 大概率拒绝率太高，要超过50%才是好参数，建议你调低，然后看看日志输出</p>
]]></description><link>https://lcz.me/post/3206</link><guid isPermaLink="true">https://lcz.me/post/3206</guid><dc:creator><![CDATA[John Ato]]></dc:creator><pubDate>Sat, 23 May 2026 03:52:10 GMT</pubDate></item><item><title><![CDATA[Reply to 本地大模型部署记录：Qwen3.6-27B MTP 在双 7900 XTX 上的推理优化 on Sat, 23 May 2026 03:51:22 GMT]]></title><description><![CDATA[<p dir="auto">感谢楼主分享，先顶再慢慢学习</p>
]]></description><link>https://lcz.me/post/3204</link><guid isPermaLink="true">https://lcz.me/post/3204</guid><dc:creator><![CDATA[John Ato]]></dc:creator><pubDate>Sat, 23 May 2026 03:51:22 GMT</pubDate></item></channel></rss>