<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[Qwen3.6-27B 六大启动模式详解：性能、参数与场景]]></title><description><![CDATA[<blockquote>
<p dir="auto">硬件环境：双路 7900 XTX (XFX MERC + Sapphire Pulse) + NVIDIA 3080 Ti (ACE-Step) | X99 DDR4-64G | ROCm 7.2.0/7.14 + Vulkan 双后端</p>
</blockquote>
<p dir="auto">编者注：<br />
简而言之，对我来说<br />
1.日常    Comfyui+Qwen 的话就选择----------### 模式 C — MTP 自我投机解码<br />
2.写小说  --------------------------------### 模式 B — IQ4_XS 128K 长文本写作（30 / 37.7 tok/s）<br />
3.想找个人/对象瞎聊一通--------------------### 模式 A — DFlash 投机解码（84 tok/s <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/26a1.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--zap" style="height:23px;width:auto;vertical-align:middle" title="⚡" alt="⚡" />纯跑分）<br />
3.想要双卡 进行Debug或者安全漏洞查测，就用---### 模式 E — 双卡 Q8_0 最高精度（~23 tok/s）</p>
<h2>前言</h2>
<p dir="auto">自从折腾上 Qwen3.6-27B 后，根据不同使用场景摸索出了 <strong>6 个标准模式（A/B/C 单卡 + D/E/F 双卡）</strong>，外加 2 个 Vulkan 变体。每个模式针对不同的量化、后端、推理策略做了取舍。这篇文章把这些模式的<strong>性能数据、启动参数、适用场景</strong>完整整理出来，给后来者参考，也方便自己查阅。</p>
<blockquote>
<p dir="auto"><strong>模式命名规范</strong>：A/B/C = 单卡（用 XFX MERC，不影响 ComfyUI），D/E/F = 双卡（占用两张 7900 XTX，需停 ComfyUI）。Vulkan 变体加 <code>-Vk</code> 后缀。</p>
</blockquote>
<hr />
<h2>一、单卡模式 (A / B / C)</h2>
<p dir="auto">单卡统一用 <strong>XFX MERC</strong>（HIP_VISIBLE_DEVICES=0, UUID <code>GPU-8accafcdfee6fc4f</code>），端口 11435，Sapphire Pulse 上的 ComfyUI 不受影响。</p>
<h3>总览</h3>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:left">模式</th>
<th style="text-align:center">速度</th>
<th style="text-align:center">模型大小</th>
<th style="text-align:center">量化</th>
<th style="text-align:center">上下文</th>
<th style="text-align:center">是否有 API</th>
<th style="text-align:center">后端</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:left"><strong>A</strong> (DFlash)</td>
<td style="text-align:center"><strong>84 tok/s</strong> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3c6.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--trophy" style="height:23px;width:auto;vertical-align:middle" title="🏆" alt="🏆" /></td>
<td style="text-align:center">15.4G+1.8G</td>
<td style="text-align:center">Q4_K_M + Q8 draft</td>
<td style="text-align:center">32K</td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> bench only</td>
<td style="text-align:center">ROCm 7.2</td>
</tr>
<tr>
<td style="text-align:left"><strong>B</strong> (IQ4_XS)</td>
<td style="text-align:center">~30 / <strong>37.7</strong> tok/s</td>
<td style="text-align:center">14G</td>
<td style="text-align:center">IQ4_XS (4.25 bpw)</td>
<td style="text-align:center"><strong>131K</strong> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3c6.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--trophy" style="height:23px;width:auto;vertical-align:middle" title="🏆" alt="🏆" /></td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /></td>
<td style="text-align:center">ROCm / <strong>Vulkan</strong></td>
</tr>
<tr>
<td style="text-align:left"><strong>C</strong> (MTP)</td>
<td style="text-align:center"><strong>~40 tok/s</strong></td>
<td style="text-align:center">16.7G</td>
<td style="text-align:center">MTP Q4_K_P (65层)</td>
<td style="text-align:center">65K</td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /></td>
<td style="text-align:center">ROCm 7.14</td>
</tr>
</tbody>
</table>
<hr />
<h3>模式 A — DFlash 投机解码（84 tok/s <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/26a1.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--zap" style="height:23px;width:auto;vertical-align:middle" title="⚡" alt="⚡" />纯跑分）</h3>
<p dir="auto"><strong>性能</strong></p>
<ul>
<li>单卡生成速度：<strong>~84 tok/s</strong>（Intel XEON E5-2680 v4 上验证）</li>
<li>使用 DFlash 草稿模型做投机解码，MTP 接受率 ~75%</li>
<li>限制：只能用 <code>test_dflash</code> / <code>bench_he.py</code> 跑分，<strong>没有 llama-server</strong>，没有 OpenAI API</li>
</ul>
<p dir="auto"><strong>启动参数</strong></p>
<pre><code class="language-bash">export HIP_VISIBLE_DEVICES=GPU-8accafcdfee6fc4f
export LD_LIBRARY_PATH=/opt/rocm-7.2.0/lib:$LD_LIBRARY_PATH
export HSA_OVERRIDE_GFX_VERSION=11.0.0
cd /home/peter/lucebox-hub/dflash

numactl --cpunodebind=0 --membind=0 python3 scripts/server.py \
  --target '/mnt/models/Qwen3.6/Huihui-Qwen3.6-27B-abliterated.Q4_K_M.gguf' \
  --draft models/dflash-draft-3.6-q8_0.gguf \
  --budget 8 \
  --max-ctx 32768 \
  --fa-window 0 \
  --tokenizer Qwen/Qwen3.6-27B \
  --cache-type-k q8_0 \
  --cache-type-v q4_0 \
  --host 0.0.0.0 --port 11435
</code></pre>
<p dir="auto"><strong>适用场景</strong></p>
<ul>
<li><strong>纯跑分/基准测试</strong>：验证硬件、对比投机策略效果</li>
<li><strong>研究用途</strong>：DFlash 架构实验，不用于日常使用</li>
<li><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/26a0.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--warning" style="height:23px;width:auto;vertical-align:middle" title="⚠" alt="⚠" />️ 如果你需要速度且有 API server，选模式 C（MTP）更好</li>
</ul>
<p dir="auto"><strong>血训</strong>：严禁把模式 A 的模型 + 标准 AR 引擎称为"模式 A"。正确命名应该是 <strong>A-AR</strong>（四不像，~30 tok/s 无投机），这已经是个独立配置，和模式 A（DFlash 84 tok/s）完全不同。</p>
<hr />
<h3>模式 B — IQ4_XS 128K 长文本写作（30 / 37.7 tok/s）</h3>
<p dir="auto"><strong>性能</strong></p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:left">后端</th>
<th style="text-align:center">Prefill (pp512)</th>
<th style="text-align:center">Decode (tg128)</th>
<th style="text-align:center">相对 ROCm</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:left">ROCm 7.2.0</td>
<td style="text-align:center"><strong>946 t/s</strong></td>
<td style="text-align:center"><strong>29.7 t/s</strong></td>
<td style="text-align:center">—</td>
</tr>
<tr>
<td style="text-align:left">Vulkan</td>
<td style="text-align:center">697 t/s (-26%)</td>
<td style="text-align:center"><strong>37.7 t/s (+27%)</strong> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f680.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--rocket" style="height:23px;width:auto;vertical-align:middle" title="🚀" alt="🚀" /></td>
<td style="text-align:center">短 prompt 优</td>
</tr>
<tr>
<td style="text-align:left">ROCm 7.14 + XNACK=1</td>
<td style="text-align:center">~950 t/s</td>
<td style="text-align:center">~29.4 t/s</td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" />无收益</td>
</tr>
</tbody>
</table>
<blockquote>
<p dir="auto">键发现：IQ4_XS 在 ROCm 7.14 + HSA_XNACK=1 上<strong>无收益</strong>（pp+1%, tg-2%）。高压缩比量化（4.25 bpw）的访存模式不利于 XNACK 机制。</p>
</blockquote>
<p dir="auto"><strong>启动参数</strong></p>
<p dir="auto">ROCm 版（<a href="http://start-qwen-b.sh" rel="nofollow ugc">start-qwen-b.sh</a>）：</p>
<pre><code class="language-bash">export LD_LIBRARY_PATH=/home/peter/llama.cpp/build-rocm/bin:/opt/rocm-7.2.0/lib:$LD_LIBRARY_PATH
export HIP_VISIBLE_DEVICES=GPU-8accafcdfee6fc4f
export HSA_OVERRIDE_GFX_VERSION=11.0.0

numactl --cpunodebind=0 --membind=0 llama-server \
  -m /mnt/models/Qwen3.6/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-IQ4_XS.gguf \
  -c 131072 -ngl 99 \
  -fa 1 \
  --no-mmap \
  --tensor-split 0 \
  --cont-batching \
  --cache-type-k q4_0 --cache-type-v q4_0 \
  --host 0.0.0.0 --port 11435
</code></pre>
<p dir="auto">Vulkan 版（<a href="http://start-qwen-b-vk.sh" rel="nofollow ugc">start-qwen-b-vk.sh</a>，decode +27%）：</p>
<pre><code class="language-bash">export VK_ICD_FILENAMES=/usr/share/vulkan/icd.d/radeon_icd.json
export LD_LIBRARY_PATH=/home/peter/llama.cpp/build-vulkan-new/bin:$LD_LIBRARY_PATH
export HSA_OVERRIDE_GFX_VERSION=11.0.0

numactl --cpunodebind=0 --membind=0 llama-server \
  -m /mnt/models/Qwen3.6/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-IQ4_XS.gguf \
  --host 0.0.0.0 --port 11435 \
  -c 131072 -ngl 99 \
  -b 512 -ub 512 \
  --no-mmap \
  --main-gpu 0 \
  --cont-batching \
  --cache-type-k q4_0 --cache-type-v q4_0
</code></pre>
<p dir="auto"><strong>关键参数说明</strong></p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:left">参数</th>
<th style="text-align:left">含义</th>
<th style="text-align:left">为什么这么设</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:left"><code>-c 131072</code></td>
<td style="text-align:left">上下文窗口 128K</td>
<td style="text-align:left">IQ4_XS 显存余量充足（~15.6 GB/24 GB）</td>
</tr>
<tr>
<td style="text-align:left"><code>-ctk q4_0 -ctv q4_0</code></td>
<td style="text-align:left">KV 缓存 q4_0</td>
<td style="text-align:left">ROCm 上 q4_0 速度等同 q8_0，体积减半</td>
</tr>
<tr>
<td style="text-align:left"><code>-fa 1</code></td>
<td style="text-align:left">Flash Attention</td>
<td style="text-align:left">提升 prefill 50%+，仅 ROCm 可用</td>
</tr>
<tr>
<td style="text-align:left"><code>--tensor-split 0</code></td>
<td style="text-align:left">锁单卡</td>
<td style="text-align:left">防 IO 延迟波动</td>
</tr>
<tr>
<td style="text-align:left"><code>--cont-batching</code></td>
<td style="text-align:left">连续批处理</td>
<td style="text-align:left">多请求并发时有效</td>
</tr>
<tr>
<td style="text-align:left"><code>-b 512 -ub 512</code></td>
<td style="text-align:left">batch/ubatch 512</td>
<td style="text-align:left">省显存，不影响速度</td>
</tr>
<tr>
<td style="text-align:left"><code>--no-mmap</code></td>
<td style="text-align:left">不进 page cache</td>
<td style="text-align:left">防 X99 劣化</td>
</tr>
</tbody>
</table>
<p dir="auto"><strong><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/26a0.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--warning" style="height:23px;width:auto;vertical-align:middle" title="⚠" alt="⚠" />️ Vulkan 注意事项</strong></p>
<ul>
<li><code>-fa 1</code> 在 Vulkan 上<strong>不可用</strong>，会导致模型 fallback CPU</li>
<li><code>VK_ICD_FILENAMES</code> 仅加载 AMD 驱动，3080 Ti 不会被拉入</li>
<li>短 prompt 场景强烈推荐 Vulkan（decode +27%），长 prompt 切回 ROCm</li>
</ul>
<p dir="auto"><strong>适用场景</strong></p>
<ul>
<li><strong>长文本写作</strong>：小说、论文、技术文档（128K 上下文）</li>
<li><strong>文档处理</strong>：分析长报告、源代码库</li>
<li><strong>聊天/日常使用</strong>：短 prompt 用 Vulkan 后端，长对话用 ROCm</li>
<li><strong>Hermes 后端</strong>：配合 <code>start-comfyui-with-qwen.sh</code> 分卡并行</li>
</ul>
<hr />
<h3>模式 C — MTP 自我投机解码（~40 tok/s）</h3>
<p dir="auto"><strong>性能（ROCm 7.14 + HSA_XNACK=1）</strong></p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:left">测试项</th>
<th style="text-align:center">q4_0/q4_0 KV</th>
<th style="text-align:center">q8_0/q8_0 KV</th>
<th style="text-align:center">变化</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:left">AR pp512</td>
<td style="text-align:center">946 t/s</td>
<td style="text-align:center">956 t/s</td>
<td style="text-align:center">-1%</td>
</tr>
<tr>
<td style="text-align:left">AR tg128</td>
<td style="text-align:center">29.7 t/s</td>
<td style="text-align:center">30.1 t/s</td>
<td style="text-align:center">-1.4%</td>
</tr>
<tr>
<td style="text-align:left">MTP cli Prompt</td>
<td style="text-align:center"><strong>52.7 t/s</strong></td>
<td style="text-align:center">52.5 t/s</td>
<td style="text-align:center">持平</td>
</tr>
<tr>
<td style="text-align:left">MTP cli Generation</td>
<td style="text-align:center"><strong>39.8 t/s</strong> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f680.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--rocket" style="height:23px;width:auto;vertical-align:middle" title="🚀" alt="🚀" /></td>
<td style="text-align:center">34.8 t/s</td>
<td style="text-align:center"><strong>+14.4%</strong></td>
</tr>
<tr>
<td style="text-align:left">KV 体积 (vs bf16)</td>
<td style="text-align:center"><strong>28.1%</strong> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f680.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--rocket" style="height:23px;width:auto;vertical-align:middle" title="🚀" alt="🚀" /></td>
<td style="text-align:center">53.1%</td>
<td style="text-align:center"><strong>-47%</strong></td>
</tr>
</tbody>
</table>
<blockquote>
<p dir="auto"><strong>关键发现</strong>：q4_0/q4_0 KV 在 MTP 模式下<strong>比 q8_0 更快</strong>！原因是 KV 带宽减少 47%，利好多 token 投机生成。Anbeeld 99.9% 尾部精度 89.84%（vs q8_0 的 94.61%），质量可接受。</p>
</blockquote>
<p dir="auto"><strong>MTP 接受率</strong>：~76%（预热后），短对话先跑 ngram 缓存填充期。</p>
<p dir="auto"><strong>启动参数</strong></p>
<pre><code class="language-bash">export HSA_XNACK=1
export HSA_OVERRIDE_GFX_VERSION=11.0.0
export HIP_VISIBLE_DEVICES=GPU-8accafcdfee6fc4f
export LD_LIBRARY_PATH=/opt/rocm-7.14-therock/lib:$LD_LIBRARY_PATH

numactl --cpunodebind=0 --membind=0 /home/peter/llama.cpp/build-rocm-7.14/bin/llama-server \
  -m /mnt/models/Qwen3.6/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf \
  --host 0.0.0.0 --port 11435 \
  -c 65536 \
  -fa 1 \
  --spec-type draft-mtp \
  --spec-draft-n-max 3 \
  --batch-size 2048 --ubatch-size 512 \
  -ctk q4_0 -ctv q4_0 \
  --no-mmap \
  --tensor-split 0 \
  --reasoning off \
  --swa-checkpoints 0 \
  --ctx-checkpoints 69 \
  --repeat-penalty 1.1 --repeat-last-n 64 \
  --temp 0.4 --top-p 0.95 --top-k 20
</code></pre>
<p dir="auto"><strong>关键参数说明</strong></p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:left">参数</th>
<th style="text-align:left">含义</th>
<th style="text-align:left">为什么必须加</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:left"><code>--spec-type draft-mtp</code></td>
<td style="text-align:left">MTP 自我投机</td>
<td style="text-align:left">核心特性</td>
</tr>
<tr>
<td style="text-align:left"><code>--spec-draft-n-max 3</code></td>
<td style="text-align:left">每次投机 3 个 token</td>
<td style="text-align:left">甜点值</td>
</tr>
<tr>
<td style="text-align:left"><code>--reasoning off</code></td>
<td style="text-align:left">禁用思考模式</td>
<td style="text-align:left"><strong>必须</strong>：否则 content 永远为空</td>
</tr>
<tr>
<td style="text-align:left"><code>--repeat-penalty 1.1 --repeat-last-n 64</code></td>
<td style="text-align:left">防重复循环</td>
<td style="text-align:left">MTP 血训</td>
</tr>
<tr>
<td style="text-align:left"><code>--temp 0.4 --top-p 0.95 --top-k 20</code></td>
<td style="text-align:left">AGI 社区甜点采样</td>
<td style="text-align:left">平衡创造性与准确度</td>
</tr>
<tr>
<td style="text-align:left"><code>--swa-checkpoints 0</code></td>
<td style="text-align:left">关闭 SWA checkpoint</td>
<td style="text-align:left">根治 60K token re-prefill 卡顿</td>
</tr>
<tr>
<td style="text-align:left"><code>--ctx-checkpoints 69</code></td>
<td style="text-align:left">每 69 层 checkpoint</td>
<td style="text-align:left">防长上下文 OOM</td>
</tr>
</tbody>
</table>
<p dir="auto"><strong>VRAM 预算（q4_0 KV, 65K）</strong></p>
<pre><code>模型权重:        16.7 GB
MTP head 开销:   0.4 GB
q4_0 KV (65K):  ~2.8 GB
合计峰值:       ~19.9 GB / 24 GB（余量 4.1 GB）
</code></pre>
<p dir="auto"><strong>为什么不选 ROCm 7.2？</strong> 模式 C 的 MTP 模型在 ROCm 7.14 + XNACK=1 上 decode 快 11%（24.85 vs 22.15 t/s），且 7.2 上 server 模式启动就崩溃。</p>
<p dir="auto"><strong>适用场景</strong></p>
<ul>
<li><strong>日常聊天</strong>：Hermes 后端首选</li>
<li><strong>编程助手</strong>：MTP 投机在代码生成中接受率很高</li>
<li><strong>需要 API server 的场景</strong>：模式 A（DFlash）只有跑分工具，模式 C 有完整 OpenAI API</li>
<li><strong>中长对话</strong>：预热后 MTP 接受率接近 100%</li>
</ul>
<hr />
<h2>二、双卡模式 (D / E / F)</h2>
<p dir="auto">双卡用 GPU 0+1（XFX + Sapphire），自动停 ComfyUI。</p>
<h3>总览</h3>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:left">模式</th>
<th style="text-align:center">速度</th>
<th style="text-align:left">模型</th>
<th style="text-align:center">量化</th>
<th style="text-align:center">端口</th>
<th style="text-align:left">引擎</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:left"><strong>D</strong> (layer)</td>
<td style="text-align:center">~29 / <strong>36.6</strong> tok/s</td>
<td style="text-align:left">Huihui Q4_K_M</td>
<td style="text-align:center">Q4_K_M</td>
<td style="text-align:center">18080</td>
<td style="text-align:left">ROCm / <strong>Vulkan</strong></td>
</tr>
<tr>
<td style="text-align:left"><strong>D</strong> (MTP)</td>
<td style="text-align:center">~22.5 tok/s</td>
<td style="text-align:left">HauhauCS MTP Q4_K_P</td>
<td style="text-align:center">Q4_K_P</td>
<td style="text-align:center">18080</td>
<td style="text-align:left">ROCm layer</td>
</tr>
<tr>
<td style="text-align:left"><strong>E</strong> (Q8_0)</td>
<td style="text-align:center">~23 tok/s</td>
<td style="text-align:left">DavidAU / ggml-org Q8_0</td>
<td style="text-align:center"><strong>Q8_0</strong> ★★★★★</td>
<td style="text-align:center">18081</td>
<td style="text-align:left">ROCm layer</td>
</tr>
<tr>
<td style="text-align:left"><strong>F</strong> (tensor)</td>
<td style="text-align:center"><strong>38-172</strong> tok/s <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3c6.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--trophy" style="height:23px;width:auto;vertical-align:middle" title="🏆" alt="🏆" /></td>
<td style="text-align:left">HauhauCS MTP Q4_K_P</td>
<td style="text-align:center">Q4_K_P</td>
<td style="text-align:center">18080</td>
<td style="text-align:left">CainSay fork</td>
</tr>
</tbody>
</table>
<hr />
<h3>模式 D — 双卡 layer split（29 / 36.6 tok/s）</h3>
<p dir="auto"><strong>性能对比</strong></p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:left">后端</th>
<th style="text-align:center">Prefill (pp512)</th>
<th style="text-align:center">Decode (tg128)</th>
<th style="text-align:center">相对</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:left">ROCm 7.2 (q4_0)</td>
<td style="text-align:center"><strong>888 t/s</strong></td>
<td style="text-align:center">22.5 t/s</td>
<td style="text-align:center">—</td>
</tr>
<tr>
<td style="text-align:left">ROCm 7.14 + XNACK (q4_0)</td>
<td style="text-align:center">854 t/s</td>
<td style="text-align:center"><strong>24.78 t/s</strong></td>
<td style="text-align:center">tg +12% <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f680.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--rocket" style="height:23px;width:auto;vertical-align:middle" title="🚀" alt="🚀" /></td>
</tr>
<tr>
<td style="text-align:left"><strong>Vulkan</strong> (q4_0)</td>
<td style="text-align:center">285 t/s (-68%)</td>
<td style="text-align:center"><strong>36.6 t/s (+63%)</strong> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f680.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--rocket" style="height:23px;width:auto;vertical-align:middle" title="🚀" alt="🚀" /></td>
<td style="text-align:center">长生成最优</td>
</tr>
</tbody>
</table>
<p dir="auto"><strong>启动参数（ROCm Huihui Q4_K_M）</strong></p>
<pre><code class="language-bash">export HSA_OVERRIDE_GFX_VERSION=11.0.0
export LD_LIBRARY_PATH=/opt/rocm-7.2.0/lib:$LD_LIBRARY_PATH
export HIP_VISIBLE_DEVICES=0,1

numactl --cpunodebind=0 --membind=0 llama-server \
  -m /mnt/models/Qwen3.6/Huihui-Qwen3.6-27B-abliterated.Q4_K_M.gguf \
  --host 0.0.0.0 --port 18080 \
  -c 65536 -fa 1 \
  --split-mode layer \
  --cache-type-k q4_0 --cache-type-v q4_0 \
  -b 1024 -ub 1024 \
  --no-mmap
</code></pre>
<p dir="auto"><strong>启动参数（Vulkan，decode +63%）</strong></p>
<pre><code class="language-bash">export VK_ICD_FILENAMES=/usr/share/vulkan/icd.d/radeon_icd.json
export LD_LIBRARY_PATH=/home/peter/llama.cpp/build-vulkan-new/bin:$LD_LIBRARY_PATH
export HSA_OVERRIDE_GFX_VERSION=11.0.0

numactl --cpunodebind=0 --membind=0 /home/peter/llama.cpp/build-vulkan-new/bin/llama-server \
  -m /mnt/models/Qwen3.6/Huihui-Qwen3.6-27B-abliterated.Q4_K_M.gguf \
  --host 0.0.0.0 --port 18080 \
  -c 65536 \
  --split-mode layer \
  --cache-type-k q4_0 --cache-type-v q4_0 \
  -b 512 -ub 512 \
  --no-mmap
</code></pre>
<p dir="auto"><strong>启动参数（双卡 MTP layer，HauhauCS MTP 模型）</strong></p>
<pre><code class="language-bash">export HIP_VISIBLE_DEVICES=GPU-16dc66d1309c376b,GPU-8accafcdfee6fc4f
export NCCL_P2P_DISABLE=1 RCCL_P2P_DISABLE=1
export NCCL_PROTO=Simple
export HSA_FORCE_FINE_GRAIN_PCIE=1 HSA_ENABLE_SDMA=0

numactl --cpunodebind=0 --membind=0 llama-server \
  -m /mnt/models/Qwen3.6/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf \
  --host 0.0.0.0 --port 18080 \
  -c 65536 -fa 1 \
  --split-mode layer --tensor-split 1,1 \
  --spec-type draft-mtp --spec-draft-n-max 3 \
  --cache-type-k q4_0 --cache-type-v q4_0 \
  --no-mmap
</code></pre>
<p dir="auto"><strong><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/26a0.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--warning" style="height:23px;width:auto;vertical-align:middle" title="⚠" alt="⚠" />️ P2P 说明</strong>：双卡间 <code>hipDeviceCanAccessPeer=0</code>（不同 root port），必须设置 <code>NCCL_P2P_DISABLE=1</code> + <code>RCCL_P2P_DISABLE=1</code>，否则 layer split 初始化死锁。</p>
<p dir="auto"><strong>适用场景</strong></p>
<ul>
<li><strong>双卡稳定性首选</strong>：layer split 最成熟、最稳定</li>
<li><strong>Vulkan 长生成</strong>：如果 prompt 短（&lt;2K tokens），Vulkan decode 比 ROCm 快 63%</li>
<li><strong>中间过渡方案</strong>：从单卡升级到双卡的最佳起点</li>
</ul>
<hr />
<h3>模式 E — 双卡 Q8_0 最高精度（~23 tok/s）</h3>
<p dir="auto"><strong>性能</strong></p>
<ul>
<li>AR decode: <strong>~23 tok/s</strong>（双卡 layer split）</li>
<li>Prefill: 受 Q8_0 大模型（29.9G）和 X99 PCIe 3.0/魔改4.0 瓶颈限制</li>
<li>质量：<strong>★★★★★</strong> — 社区公认 Qwen3.6-27B 最佳变体（DavidAU NEO-CODE-HERE）</li>
</ul>
<p dir="auto"><strong>启动参数</strong></p>
<pre><code class="language-bash">export HSA_OVERRIDE_GFX_VERSION=11.0.0
export LD_LIBRARY_PATH=/opt/rocm-7.2.0/lib:$LD_LIBRARY_PATH
export HIP_VISIBLE_DEVICES=GPU-16dc66d1309c376b,GPU-8accafcdfee6fc4f
export NCCL_PROTO=Simple
export HSA_FORCE_FINE_GRAIN_PCIE=1 HSA_ENABLE_SDMA=0

numactl --cpunodebind=0 --membind=0 llama-server \
  -m /mnt/models/Qwen3.6/Qwen3.6-27B-NEO-CODE-HERE-2T-OT-HIGH-Q8_0.gguf \
  --host 0.0.0.0 --port 18081 \
  -c 65536 -fa 1 \
  --split-mode layer --tensor-split 1,1 \
  --cache-type-k q8_0 --cache-type-v q8_0 \
  -b 256 -ub 64 \
  -fit off
</code></pre>
<p dir="auto"><strong>几个坑</strong></p>
<ul>
<li><code>-fit off</code>：关闭 KV cache 大小自适应，防 OOM</li>
<li>小 batch（256/64）：Q8_0 KV 显存占用大，必须保守</li>
<li><code>-c 65536</code>：131K 塞不下（双卡 48G 显存，Q8_0 模型 29.9G + Q8_0 KV 在 65K 下已近顶）</li>
</ul>
<p dir="auto"><strong>适用场景</strong></p>
<ul>
<li><strong>代码任务</strong>：DavidAU 变体专为代码优化（2T token 预训练）</li>
<li><strong>高质量输出场景</strong>：Q8_0 量化几乎没有精度损失</li>
<li><strong>对比基准</strong>：用于和其他量化（Q4_K_M, IQ4_XS）做质量对比</li>
<li><strong>必须双卡</strong>：Q8_0 29.9G 单卡 24GB 塞不下</li>
</ul>
<hr />
<h3>模式 F — 双卡 tensor MTP+ngram（38-172 tok/s <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3c6.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--trophy" style="height:23px;width:auto;vertical-align:middle" title="🏆" alt="🏆" />）</h3>
<p dir="auto">（编者注：这个模式跟大佬的性能差距打破了我对LLM大模型不吃CPU的刻板认知）</p>
<p dir="auto"><strong>性能</strong></p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:left">场景</th>
<th style="text-align:center">速度</th>
<th style="text-align:left">说明</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:left">短对话（X99 DDR4）</td>
<td style="text-align:center">~38 tok/s</td>
<td style="text-align:left">ngram 缓存初始化期</td>
</tr>
<tr>
<td style="text-align:left">长文本（X99 预热后）</td>
<td style="text-align:center">~43 tok/s</td>
<td style="text-align:left">MTP 接受率 ~86%</td>
</tr>
<tr>
<td style="text-align:left">长文本（Ryzen 9700X 参考）</td>
<td style="text-align:center"><strong>140-172 tok/s</strong> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3c6.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--trophy" style="height:23px;width:auto;vertical-align:middle" title="🏆" alt="🏆" /></td>
<td style="text-align:left">X99 DDR4 是瓶颈</td>
</tr>
<tr>
<td style="text-align:left">基准 MTP gen</td>
<td style="text-align:center">52.7 t/s (prompt) / 39.8 t/s (gen)</td>
<td style="text-align:left">单卡 q4_0 KV 参考</td>
</tr>
</tbody>
</table>
<p dir="auto"><strong>启动参数</strong></p>
<pre><code class="language-bash">export HSA_OVERRIDE_GFX_VERSION=11.0.0
export LD_LIBRARY_PATH=/opt/rocm-7.2.0/lib:$LD_LIBRARY_PATH
export HIP_VISIBLE_DEVICES=0,1
export NCCL_PROTO=Simple
export HSA_FORCE_FINE_GRAIN_PCIE=1 HSA_ENABLE_SDMA=0

numactl --cpunodebind=0 --membind=0 /home/peter/llama-cainsay/build-hip/bin/llama-server \
  -m /mnt/models/Qwen3.6/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf \
  --host 0.0.0.0 --port 18080 \
  -c 65536 -fa 1 \
  --kv-unified \
  --split-mode tensor --tensor-split 7,7 \
  --cache-type-k q8_0 --cache-type-v q8_0 \
  -b 1024 -ub 1024 \
  --spec-type draft-mtp,ngram-mod,ngram-map-k4v \
  --spec-draft-n-max 4 \
  --spec-ngram-map-k4v-size-m 64 \
  --repeat-penalty 1.1 --repeat-last-n 64 \
  --reasoning off \
  --temp 0.4 --top-p 0.95 --top-k 20 \
  -np 1 \
  --no-mmap
</code></pre>
<p dir="auto"><strong>关键参数说明</strong></p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:left">参数</th>
<th style="text-align:left">含义</th>
<th style="text-align:left">为什么</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:left"><code>--split-mode tensor --tensor-split 7,7</code></td>
<td style="text-align:left">张量并行</td>
<td style="text-align:left">双卡 7:7 平分层数</td>
</tr>
<tr>
<td style="text-align:left"><code>--spec-type draft-mtp,ngram-mod,ngram-map-k4v</code></td>
<td style="text-align:left">三重投机</td>
<td style="text-align:left">MTP + ngram + map 链式投机</td>
</tr>
<tr>
<td style="text-align:left"><code>--spec-draft-n-max 4</code></td>
<td style="text-align:left">每步投机 4 token</td>
<td style="text-align:left">ngram 链式最大收益</td>
</tr>
<tr>
<td style="text-align:left"><code>--spec-ngram-map-k4v-size-m 64</code></td>
<td style="text-align:left">ngram map 大小 64M</td>
<td style="text-align:left">缓存上下文匹配</td>
</tr>
<tr>
<td style="text-align:left"><code>--kv-unified</code></td>
<td style="text-align:left">统一 KV</td>
<td style="text-align:left">tensor split 必需</td>
</tr>
<tr>
<td style="text-align:left"><code>-np 1</code></td>
<td style="text-align:left">单批处理</td>
<td style="text-align:left"><strong>必须</strong>：防 GGML 内存池崩溃</td>
</tr>
<tr>
<td style="text-align:left"><code>-ctk q8_0 -ctv q8_0</code></td>
<td style="text-align:left">KV q8_0</td>
<td style="text-align:left"><strong>只能 q8_0</strong>：q4_0 触 tensor split GGML_ASSERT</td>
</tr>
</tbody>
</table>
<p dir="auto"><strong><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/26a0.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--warning" style="height:23px;width:auto;vertical-align:middle" title="⚠" alt="⚠" />️ 限制</strong></p>
<ul>
<li><strong>只能 q8_0 KV</strong>：<code>llama_params_fit</code> 未为 <code>SPLIT_MODE_TENSOR</code> 实现，q4_0 触发 GGML_ASSERT 崩溃</li>
<li><strong>SWA checkpoint bug</strong>：CainSay fork 和 upstream 一样，&gt;60K context 后 SWA checkpoint 失效，触全量 re-prefill（2-3 分钟卡顿）</li>
<li>需要 <strong>CainSay fork</strong>（<code>fix/split-mode-tensor-quant-kv</code> 分支），upstream 没有 tensor split</li>
</ul>
<p dir="auto"><strong>适用场景</strong></p>
<ul>
<li><strong>双卡最强输出</strong>：tensor split + MTP + ngram 三重投机，预热后极快</li>
<li><strong>长文本生成</strong>：预热后稳定 ~43 tok/s（X99）、140+ tok/s（Ryzen）</li>
<li><strong>适合</strong>能接受 60K 以内上下文的场景，超 60K 有 SWA bug</li>
<li>注意必须双卡（不能单卡 tensor split）</li>
</ul>
<hr />
<h2>三、Vulkan 变体补充</h2>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:left">变体</th>
<th style="text-align:center">Decode</th>
<th style="text-align:center">相对 ROCm</th>
<th style="text-align:left">适用场景</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:left"><strong>B-Vk</strong> (单卡 IQ4_XS)</td>
<td style="text-align:center">37.7 t/s</td>
<td style="text-align:center"><strong>+27%</strong> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f680.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--rocket" style="height:23px;width:auto;vertical-align:middle" title="🚀" alt="🚀" /></td>
<td style="text-align:left">短 prompt 聊天</td>
</tr>
<tr>
<td style="text-align:left"><strong>D-layer-Vk</strong> (双卡 layer)</td>
<td style="text-align:center">36.6 t/s</td>
<td style="text-align:center"><strong>+63%</strong> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f680.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--rocket" style="height:23px;width:auto;vertical-align:middle" title="🚀" alt="🚀" /></td>
<td style="text-align:left">长文本生成</td>
</tr>
<tr>
<td style="text-align:left"><strong>B</strong> (ROCm)</td>
<td style="text-align:center">29.7 t/s</td>
<td style="text-align:center">—</td>
<td style="text-align:left">长 prompt</td>
</tr>
<tr>
<td style="text-align:left"><strong>D-layer</strong> (ROCm)</td>
<td style="text-align:center">22.5 t/s</td>
<td style="text-align:center">—</td>
<td style="text-align:left">极长 prompt</td>
</tr>
</tbody>
</table>
<blockquote>
<p dir="auto">Vulkan 特点：decode 恒定（不受 batch 大小影响），推荐 <code>b=512 ub=512</code> 或 <code>b=1024 ub=512</code>。<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> <code>-fa 1</code> 不可用。<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/26a0.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--warning" style="height:23px;width:auto;vertical-align:middle" title="⚠" alt="⚠" />️ q5_0/q4_1 KV 在 Vulkan 上<strong>可用</strong>（ROCm 不行）。编译后必须验证 <code>--list-devices</code> 确实显示 GPU。</p>
</blockquote>
<p dir="auto"><strong>Vulkan 选型策略</strong></p>
<ul>
<li>prompt &lt; 2K tokens → Vulkan（decode 快 27-63%）</li>
<li>prompt &gt; 2K tokens → ROCm（prefill 快 26-68%）</li>
</ul>
<hr />
<h2>四、模式选择决策树</h2>
<pre><code>你想做什么？
├── 跑分/基准测试 → 模式 A (DFlash 84 tok/s)
├── 日常聊天/编程助手
│   ├── 短对话 → 模式 B-Vk (Vulkan 37.7 t/s) 或 模式 C (MTP 40 t/s)
│   └── 长对话 → 模式 B ROCm (29.7 t/s, 131K ctx)
├── 长文本写作/文档处理 → 模式 B (IQ4_XS 131K)
├── 代码/高质量输出 → 模式 E (Q8_0 ★★★★★)
├── 双卡吞吐最大化
│   ├── 60K 以内上下文 → 模式 F (tensor MTP+ngram 🏆)
│   └── 稳定优先 → 模式 D (layer split)
└── 和 ComfyUI 并行运行
    └── start-comfyui-with-qwen.sh (默认模式 B)
</code></pre>
<hr />
<h2>五、性能测试方法论</h2>
<p dir="auto">所有数据来自 <strong>llama-bench</strong> 和 <strong>llama-server 实测</strong>，测试条件：</p>
<ul>
<li>模型：Qwen3.6-27B 各量化变体</li>
<li>后端：ROCm 7.2.0 / 7.14-TheRock / Vulkan</li>
<li>CPU：Intel Xeon E5-2680 v4 (DDR4 2400)</li>
<li>GPU：双路 7900 XTX (XFX MERC + Sapphire Pulse)</li>
<li>NVMe SSD 加载模型，非 mmap</li>
</ul>
<blockquote>
<p dir="auto">测试脚本和详细方法论见 <code>references/rocm-comparison-testing.md</code> 和 <code>references/cross-backend-parameter-testing-20260619.md</code></p>
</blockquote>
<hr />
<h2>六、更新日志</h2>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:left">日期</th>
<th style="text-align:left">更新内容</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:left">2026-06-19</td>
<td style="text-align:left">q4_0/q4_0 推翻旧结论：MTP 模式 +14.4%；模式 C 更新 ROCm 7.14 + XNACK=1</td>
</tr>
<tr>
<td style="text-align:left">2026-06-19</td>
<td style="text-align:left">Vulkan 回归测试：双卡 decode +63%；q5_0/q4_1 KV Vulkan 可用</td>
</tr>
<tr>
<td style="text-align:left">2026-06-19</td>
<td style="text-align:left">全局推荐 <code>--swa-checkpoints 0</code> + <code>--ctx-checkpoints 69</code></td>
</tr>
<tr>
<td style="text-align:left">2026-06-19</td>
<td style="text-align:left">新增模式 F (tensor MTP+ngram) 和 CainSay fork 基准</td>
</tr>
<tr>
<td style="text-align:left">2026-06-16</td>
<td style="text-align:left">初始版本：6 大模式 + 命名纪律确立</td>
</tr>
</tbody>
</table>
<hr />
<p dir="auto">有问题欢迎交流！硬件环境（双 7900 XTX + X99）相近的兄弟可以直接抄参数。🫡</p>
<p dir="auto">至此，7900 XTX 调教/折腾/学习篇到暂告一段落了，设备要开始投入进去找路子赚钱了，感谢各位的关注~！！！</p>
<p dir="auto">以下是模式C运行时的截图<br />
<img src="https://upload.lcz.me/uploads/e6323956-8f47-4006-8e8b-3a0404b51182.jpeg" alt="21a3c65e-b2eb-45b3-a98e-782f660ed8be-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/14ed1977-374a-4a02-a431-a03ed1fc37e6.jpeg" alt="c193fb4c-ce78-48be-9e2b-7e3c3bc6234b-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/3ce7d751-f5de-474b-b30b-e08224ce24fb.jpeg" alt="95279897-0c63-4a7a-8672-9419e8cc5ff8-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/1449969e-9071-4da2-a3d5-0b6918ba79b1.jpeg" alt="5205c4f9-880f-4176-aef8-864f7fed9c0e-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/9a39a49d-3cc0-480b-bb6e-0202c0dc75e8.jpeg" alt="b287e43c-46ba-4b00-a060-47d503d99fa0-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">免责声明：<br />
以下截图仅为展示模型性能，非搞黄色<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f60a.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--blush" style="height:23px;width:auto;vertical-align:middle" title=":blush:" alt="😊" /><br />
<img src="https://upload.lcz.me/uploads/2f0d170f-5349-4865-bb9f-9082dda5c36f.jpeg" alt="2d1b1d7b-2544-4c61-9898-9368f8953709-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/topic/637/qwen3.6-27b-六大启动模式详解-性能-参数与场景</link><generator>RSS for Node</generator><lastBuildDate>Wed, 01 Jul 2026 10:53:28 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/637.rss" rel="self" type="application/rss+xml"/><pubDate>Sat, 20 Jun 2026 14:15:55 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to Qwen3.6-27B 六大启动模式详解：性能、参数与场景 on Thu, 25 Jun 2026 16:10:43 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/topgun2000" aria-label="Profile: topgun2000">@<bdi>topgun2000</bdi></a> 有可能，但是我这块板现在实际跑起来，是现实pcie4.0的速度的。只不过还没想起来要测试一下实际能到多少。可以试试，回头发论坛看看</p>
]]></description><link>https://lcz.me/post/8250</link><guid isPermaLink="true">https://lcz.me/post/8250</guid><dc:creator><![CDATA[abaalei]]></dc:creator><pubDate>Thu, 25 Jun 2026 16:10:43 GMT</pubDate></item><item><title><![CDATA[Reply to Qwen3.6-27B 六大启动模式详解：性能、参数与场景 on Mon, 22 Jun 2026 06:56:49 GMT]]></title><description><![CDATA[<p dir="auto">留名抄作业，十分感谢！</p>
]]></description><link>https://lcz.me/post/7803</link><guid isPermaLink="true">https://lcz.me/post/7803</guid><dc:creator><![CDATA[demo]]></dc:creator><pubDate>Mon, 22 Jun 2026 06:56:49 GMT</pubDate></item><item><title><![CDATA[Reply to Qwen3.6-27B 六大启动模式详解：性能、参数与场景 on Mon, 22 Jun 2026 04:16:06 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/abaalei" aria-label="Profile: abaalei">@<bdi>abaalei</bdi></a> <a href="/post/7614">说</a>:</p>
<p dir="auto">长文本（Ryzen 9700X 参考）	140-172 tok/s 	X99 DDR4 是瓶颈</p>
</blockquote>
<p dir="auto">这个大概率是因为PCI-E 5.0 vs PCI-E 3.0，两个显卡做TP，瓶颈是PCI-E，除非有NVlink之类的连接。DDR4再慢也比PCI-E 3.0快很多</p>
<p dir="auto">5.0 x16 带宽是 3.0 x16的四倍</p>
]]></description><link>https://lcz.me/post/7786</link><guid isPermaLink="true">https://lcz.me/post/7786</guid><dc:creator><![CDATA[topgun2000]]></dc:creator><pubDate>Mon, 22 Jun 2026 04:16:06 GMT</pubDate></item><item><title><![CDATA[Reply to Qwen3.6-27B 六大启动模式详解：性能、参数与场景 on Sun, 21 Jun 2026 06:48:07 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/grayson-ren" aria-label="Profile: Grayson-Ren">@<bdi>Grayson-Ren</bdi></a> 亲测 7900XTX 24G 可以做为门槛。做到入门级使用。可以干很多小显存项目。期待优化。<br />
近期观察有 炒股，生图，无限制版小说，小短片等能力。</p>
]]></description><link>https://lcz.me/post/7663</link><guid isPermaLink="true">https://lcz.me/post/7663</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Sun, 21 Jun 2026 06:48:07 GMT</pubDate></item><item><title><![CDATA[Reply to Qwen3.6-27B 六大启动模式详解：性能、参数与场景 on Sun, 21 Jun 2026 04:39:03 GMT]]></title><description><![CDATA[<p dir="auto">准备搭个同样硬件抄作业</p>
]]></description><link>https://lcz.me/post/7660</link><guid isPermaLink="true">https://lcz.me/post/7660</guid><dc:creator><![CDATA[Grayson Ren]]></dc:creator><pubDate>Sun, 21 Jun 2026 04:39:03 GMT</pubDate></item><item><title><![CDATA[Reply to Qwen3.6-27B 六大启动模式详解：性能、参数与场景 on Sun, 21 Jun 2026 03:58:04 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/williamlouis" aria-label="Profile: williamlouis">@<bdi>williamlouis</bdi></a><br />
哈哈，这倒确实。不用说其它了，就看我白嫖gemini的7天200美元的账单，都觉得肉痛。<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f622.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--cry" style="height:23px;width:auto;vertical-align:middle" title=":cry:" alt="😢" /></p>
]]></description><link>https://lcz.me/post/7658</link><guid isPermaLink="true">https://lcz.me/post/7658</guid><dc:creator><![CDATA[abaalei]]></dc:creator><pubDate>Sun, 21 Jun 2026 03:58:04 GMT</pubDate></item><item><title><![CDATA[Reply to Qwen3.6-27B 六大启动模式详解：性能、参数与场景 on Sun, 21 Jun 2026 03:50:58 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/abaalei" aria-label="Profile: abaalei">@<bdi>abaalei</bdi></a> 知足常乐。兄弟。你已经选用了最经济的模型。 换个其他的你就知道什么叫肉疼。</p>
]]></description><link>https://lcz.me/post/7657</link><guid isPermaLink="true">https://lcz.me/post/7657</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Sun, 21 Jun 2026 03:50:58 GMT</pubDate></item><item><title><![CDATA[Reply to Qwen3.6-27B 六大启动模式详解：性能、参数与场景 on Sun, 21 Jun 2026 03:29:30 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/williamlouis" aria-label="Profile: williamlouis">@<bdi>williamlouis</bdi></a><br />
哈哈，不牛不牛，只是心痛我的账单<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f630.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--cold_sweat" style="height:23px;width:auto;vertical-align:middle" title=":cold_sweat:" alt="😰" /> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f630.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--cold_sweat" style="height:23px;width:auto;vertical-align:middle" title=":cold_sweat:" alt="😰" /><br />
<img src="https://upload.lcz.me/uploads/0eb941ce-49c3-4bb4-98d0-5f693a384545.jpeg" alt="8cd37f6c-43a8-43be-99d9-be4510fed70d-image.jpeg" class=" img-fluid img-markdown" /><br />
还没算上白嫖gemini的<br />
<img src="https://upload.lcz.me/uploads/df3b30b7-78e4-4480-8ec3-ab164934fa4d.jpeg" alt="e946cef7-4aea-437c-86a8-fcdd7f6c890e-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/4252c280-0fe2-4e0b-bcd7-3eb12335f067.jpeg" alt="5a9b2d97-089d-4729-8746-e5fac158db42-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/7654</link><guid isPermaLink="true">https://lcz.me/post/7654</guid><dc:creator><![CDATA[abaalei]]></dc:creator><pubDate>Sun, 21 Jun 2026 03:29:30 GMT</pubDate></item><item><title><![CDATA[Reply to Qwen3.6-27B 六大启动模式详解：性能、参数与场景 on Sat, 20 Jun 2026 15:19:25 GMT]]></title><description><![CDATA[<p dir="auto">辛苦了大牛哥。棒棒哒。很全面的总结</p>
]]></description><link>https://lcz.me/post/7623</link><guid isPermaLink="true">https://lcz.me/post/7623</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Sat, 20 Jun 2026 15:19:25 GMT</pubDate></item><item><title><![CDATA[Reply to Qwen3.6-27B 六大启动模式详解：性能、参数与场景 on Sat, 20 Jun 2026 15:07:18 GMT]]></title><description><![CDATA[<p dir="auto">质量很高. 先留言,后学习.</p>
]]></description><link>https://lcz.me/post/7621</link><guid isPermaLink="true">https://lcz.me/post/7621</guid><dc:creator><![CDATA[mark]]></dc:creator><pubDate>Sat, 20 Jun 2026 15:07:18 GMT</pubDate></item><item><title><![CDATA[Reply to Qwen3.6-27B 六大启动模式详解：性能、参数与场景 on Sat, 20 Jun 2026 15:00:15 GMT]]></title><description><![CDATA[<p dir="auto">留名学习yellow prompt....</p>
]]></description><link>https://lcz.me/post/7619</link><guid isPermaLink="true">https://lcz.me/post/7619</guid><dc:creator><![CDATA[imbiplaza ASUS]]></dc:creator><pubDate>Sat, 20 Jun 2026 15:00:15 GMT</pubDate></item><item><title><![CDATA[Reply to Qwen3.6-27B 六大启动模式详解：性能、参数与场景 on Sat, 20 Jun 2026 14:52:48 GMT]]></title><description><![CDATA[<p dir="auto">感谢分享 留好作业准备抄了</p>
]]></description><link>https://lcz.me/post/7618</link><guid isPermaLink="true">https://lcz.me/post/7618</guid><dc:creator><![CDATA[tom23]]></dc:creator><pubDate>Sat, 20 Jun 2026 14:52:48 GMT</pubDate></item></channel></rss>