<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[7900 XTX ROCm KV Cache 量化交叉对比：Anbeeld 论文搬到 ROCm 的残酷现实]]></title><description><![CDATA[<blockquote>
<p dir="auto"><strong>日期:</strong> 2026-06-19 | <strong>硬件:</strong> X99-6PLUS (Xeon E5-2682v4 × 2) + 讯景 RX 7900 XTX 24GB + ROCm 7.2.0<br />
<strong>模型:</strong> Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P (16.7GB, 65 层)<br />
<strong>引擎:</strong> upstream llama.cpp v9563 / CainSay fork fix/split-mode-tensor-quant-kv / Vulkan v9672<br />
<strong>参考:</strong> Anbeeld <a href="https://anbeeld.com/articles/kv-cache-quantization-benchmarks-for-long-context" rel="nofollow ugc">KV Cache Quantization Benchmarks</a> (RTX 3090)</p>
</blockquote>
<hr />
<h2>本期更新：Vulkan 后端加入战场</h2>
<p dir="auto">帖子发出后，有群友回复说"试试 Vulkan 后端，50+ 稳定"。之前我们认为 Vulkan 在 RDNA3 上比 ROCm 慢所以没试，但实测结果出人意料——<strong>Vulkan decode 完胜 ROCm，且 q5 系 kernel 没有致命惩罚。</strong> 这意味着 Anbeeld 的完整推荐阶梯在 Vulkan 上全部可用。</p>
<p dir="auto">以下为原 ROCm 测试 + 新增 Vulkan 对比的完整报告。</p>
<hr />
<h2>TL;DR</h2>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:left">项目</th>
<th style="text-align:left">结论</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:left"><strong>ROCm + q5 系 KV</strong></td>
<td style="text-align:left"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> prefill 暴跌 60-80%，不可用</td>
</tr>
<tr>
<td style="text-align:left"><strong>ROCm + q4_0/q4_0</strong></td>
<td style="text-align:left"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> 速度 = q8，MTP 快 14%，-47% 显存</td>
</tr>
<tr>
<td style="text-align:left"><strong>Vulkan + 所有 KV 类型</strong></td>
<td style="text-align:left"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> decode 均正常，无 q5 惩罚</td>
</tr>
<tr>
<td style="text-align:left"><strong>Vulkan AR decode</strong></td>
<td style="text-align:left"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f680.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--rocket" style="height:23px;width:auto;vertical-align:middle" title="🚀" alt="🚀" /> 比 ROCm 快 17%</td>
</tr>
<tr>
<td style="text-align:left"><strong>Vulkan 双卡 decode</strong></td>
<td style="text-align:left"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f680.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--rocket" style="height:23px;width:auto;vertical-align:middle" title="🚀" alt="🚀" /> 比 ROCm 快 57%</td>
</tr>
<tr>
<td style="text-align:left"><strong>Vulkan prefill</strong></td>
<td style="text-align:left"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> 比 ROCm 慢 67-79%</td>
</tr>
</tbody>
</table>
<hr />
<h2>起因</h2>
<p dir="auto">之前发了 MTP 优化帖后，有人分享了 Anbeeld 的 KV 量化文章。他用 RTX 3090 (CUDA) 测了 75 对 KV 缓存量化组合，结论是 <code>q5_0/q4_1</code> 是"VRAM 受限下最佳默认"。我寻思既然都是 Qwen3.6-27B 同款模型，不如搬过来试一试。</p>
<p dir="auto">结果是 ROCm 上 q5 kernel 全崩。但 Vulkan 上，故事完全不同。</p>
<hr />
<h2>ROCm 实测数据</h2>
<h3>单卡 AR 基线 (llama-bench, pp512/tg128)</h3>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:left">KV 配置</th>
<th style="text-align:center">pp512</th>
<th style="text-align:center">tg128</th>
<th style="text-align:left">速度变化</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:left">q8_0/q8_0</td>
<td style="text-align:center">955.65 t/s</td>
<td style="text-align:center">30.07 t/s</td>
<td style="text-align:left">基准</td>
</tr>
<tr>
<td style="text-align:left"><strong>q4_0/q4_0</strong></td>
<td style="text-align:center"><strong>946.08 t/s</strong></td>
<td style="text-align:center"><strong>29.65 t/s</strong></td>
<td style="text-align:left"><strong>-1% / -1.4% <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /></strong></td>
</tr>
<tr>
<td style="text-align:left">q5_0/q5_0</td>
<td style="text-align:center">227.38 t/s</td>
<td style="text-align:center">25.84 t/s</td>
<td style="text-align:left"><strong>-76% / -14% <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /></strong></td>
</tr>
<tr>
<td style="text-align:left">q5_0/q4_1</td>
<td style="text-align:center">359.60 t/s</td>
<td style="text-align:center">26.69 t/s</td>
<td style="text-align:left"><strong>-62% / -11% <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /></strong></td>
</tr>
<tr>
<td style="text-align:left">q8_0/q5_1</td>
<td style="text-align:center">208.92 t/s</td>
<td style="text-align:center">26.18 t/s</td>
<td style="text-align:left"><strong>-78% / -13% <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /></strong></td>
</tr>
</tbody>
</table>
<blockquote>
<p dir="auto"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/26a0.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--warning" style="height:23px;width:auto;vertical-align:middle" title="⚠" alt="⚠" />️ <strong>对比 Anbeeld (RTX 3090)：</strong> 他那边 q5_0/q4_1 的 prefill 是 710 t/s（仅比 q8 慢 10%），我们直接掉到 360 t/s。这不是"差一点"，是 <strong>catastrophic failure</strong>。</p>
</blockquote>
<h3>单卡 MTP 实测 (llama-cli, p=20 n=256)</h3>
<pre><code class="language-diff">-ctk q8_0 -ctv q8_0  →  Prompt 52.5 t/s | Generation 34.8 t/s
+ctk q4_0 -ctv q4_0  →  Prompt 52.7 t/s | Generation 39.8 t/s 🚀
</code></pre>
<h3>双卡 Layer Split</h3>
<pre><code class="language-diff">-ctk q8_0 -ctv q8_0  →  pp512 668.44 t/s | tg128 22.51 t/s
+ctk q4_0 -ctv q4_0  →  pp512 888.47 t/s | tg128 22.50 t/s 🚀 (+33% pp)
</code></pre>
<h3>128K 上下文尝试</h3>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:center">上下文</th>
<th style="text-align:center">VRAM</th>
<th style="text-align:center">MTP decode</th>
<th style="text-align:center">结论</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:center">65K</td>
<td style="text-align:center">~18.5 GB</td>
<td style="text-align:center">39.8 t/s</td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> 推荐</td>
</tr>
<tr>
<td style="text-align:center">128K</td>
<td style="text-align:center">22.5 GB (93.75%)</td>
<td style="text-align:center">16.3 t/s</td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> 太慢</td>
</tr>
</tbody>
</table>
<hr />
<h2><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2728.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--sparkles" style="height:23px;width:auto;vertical-align:middle" title="✨" alt="✨" /> Vulkan 后端实测（新增！）</h2>
<p dir="auto">坛友推荐 Vulkan 后端，编译只需 5 分钟（无需 HIP kernel 长编译），一试。</p>
<p dir="auto"><strong>编译参数：</strong> <code>cmake -DGGML_VULKAN=ON</code>，用 <code>VK_ICD_FILENAMES=/usr/share/vulkan/icd.d/radeon_icd.json</code> 隔离 3080 Ti。</p>
<h3>单卡 AR 对比</h3>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:left">KV 配置</th>
<th style="text-align:center">ROCm pp</th>
<th style="text-align:center">Vulkan pp</th>
<th style="text-align:center">ROCm tg</th>
<th style="text-align:center"><strong>Vulkan tg</strong></th>
<th style="text-align:center">tg 变化</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:left">q8_0/q8_0</td>
<td style="text-align:center"><strong>956</strong></td>
<td style="text-align:center">198</td>
<td style="text-align:center">30.07</td>
<td style="text-align:center"><strong>34.79</strong> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f680.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--rocket" style="height:23px;width:auto;vertical-align:middle" title="🚀" alt="🚀" /></td>
<td style="text-align:center"><strong>+15.7%</strong></td>
</tr>
<tr>
<td style="text-align:left">q4_0/q4_0</td>
<td style="text-align:center"><strong>946</strong></td>
<td style="text-align:center">310</td>
<td style="text-align:center">29.65</td>
<td style="text-align:center"><strong>34.77</strong> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f680.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--rocket" style="height:23px;width:auto;vertical-align:middle" title="🚀" alt="🚀" /></td>
<td style="text-align:center"><strong>+17.3%</strong></td>
</tr>
<tr>
<td style="text-align:left"><strong>q5_0/q4_1</strong> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3c6.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--trophy" style="height:23px;width:auto;vertical-align:middle" title="🏆" alt="🏆" /></td>
<td style="text-align:center">360</td>
<td style="text-align:center"><strong>242</strong></td>
<td style="text-align:center">26.69</td>
<td style="text-align:center"><strong>34.69</strong> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f680.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--rocket" style="height:23px;width:auto;vertical-align:middle" title="🚀" alt="🚀" /></td>
<td style="text-align:center"><strong>+30.0%</strong></td>
</tr>
<tr>
<td style="text-align:left">q5_0/q5_0</td>
<td style="text-align:center">227</td>
<td style="text-align:center">190</td>
<td style="text-align:center">25.84</td>
<td style="text-align:center"><strong>34.82</strong> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f680.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--rocket" style="height:23px;width:auto;vertical-align:middle" title="🚀" alt="🚀" /></td>
<td style="text-align:center"><strong>+34.7%</strong></td>
</tr>
<tr>
<td style="text-align:left">q8_0/q5_1</td>
<td style="text-align:center">209</td>
<td style="text-align:center"><strong>242</strong></td>
<td style="text-align:center">26.18</td>
<td style="text-align:center"><strong>35.21</strong> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f680.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--rocket" style="height:23px;width:auto;vertical-align:middle" title="🚀" alt="🚀" /></td>
<td style="text-align:center"><strong>+34.5%</strong></td>
</tr>
<tr>
<td style="text-align:left">q5_0/q4_0</td>
<td style="text-align:center">—</td>
<td style="text-align:center">194</td>
<td style="text-align:center">—</td>
<td style="text-align:center"><strong>34.68</strong></td>
<td style="text-align:center">—</td>
</tr>
</tbody>
</table>
<p dir="auto"><strong>关键发现：Vulkan 上所有 q5 系 KV 都跑在 ~35 t/s！</strong> 没有 ROCm 上的暴跌。Anbeeld 的 q5_0/q4_1 甜点终于在 AMD 卡上可用。</p>
<h3>单卡 MTP</h3>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:left">配置</th>
<th style="text-align:center">ROCm</th>
<th style="text-align:center">Vulkan</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:left">q4_0/q4_0 n=3</td>
<td style="text-align:center"><strong>39.8 t/s</strong> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3c6.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--trophy" style="height:23px;width:auto;vertical-align:middle" title="🏆" alt="🏆" /></td>
<td style="text-align:center">30.8 t/s</td>
</tr>
<tr>
<td style="text-align:left">q5_0/q4_1 n=2</td>
<td style="text-align:center">—</td>
<td style="text-align:center">32.4 t/s</td>
</tr>
<tr>
<td style="text-align:left">q8_0/q4_0 n=2</td>
<td style="text-align:center">—</td>
<td style="text-align:center">32.3 t/s</td>
</tr>
</tbody>
</table>
<p dir="auto">Vulkan MTP 不如 ROCm，但 AR decode 完胜。</p>
<h3>双卡 Layer Split</h3>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:left">后端</th>
<th style="text-align:center">pp512</th>
<th style="text-align:center">tg128</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:left">ROCm</td>
<td style="text-align:center"><strong>888</strong> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f680.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--rocket" style="height:23px;width:auto;vertical-align:middle" title="🚀" alt="🚀" /></td>
<td style="text-align:center">22.50</td>
</tr>
<tr>
<td style="text-align:left">Vulkan</td>
<td style="text-align:center">285</td>
<td style="text-align:center"><strong>35.37</strong> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f680.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--rocket" style="height:23px;width:auto;vertical-align:middle" title="🚀" alt="🚀" /> <strong>+57%</strong></td>
</tr>
</tbody>
</table>
<p dir="auto"><strong>双卡 Vulkan decode 比 ROCm 快 57%！</strong> 适合纯聊天/长生成。</p>
<hr />
<h2>后端选择指南</h2>
<pre><code>┌─────────────┬────────────────┬────────────────┬──────────────────┐
│ 使用场景     │ 推荐后端       │ 速度           │ 理由              │
├─────────────┼────────────────┼────────────────┼──────────────────┤
│ 聊天/写作    │ Vulkan         │ tg 34.8 t/s    │ decode 快 17%     │
│ (短 prompt)  │                │                │                    │
│ 长文档处理    │ ROCm           │ pp 946 t/s     │ prefill 快 3x     │
│ (长 prompt)  │                │                │                    │
│ MTP 推测解码  │ ROCm           │ gen 39.8 t/s   │ MTP kernel 更优   │
│ 双卡聊天      │ Vulkan         │ tg 35.4 t/s    │ decode 快 57%     │
│ 双卡 tensor   │ ROCm (CainSay) │ ~43 t/s        │ Vulkan 不支持     │
└─────────────┴────────────────┴────────────────┴──────────────────┘
</code></pre>
<p dir="auto">Vulkan 的 decode 优势来自 shader 级调度更高效；ROCm 的 prefill 优势来自批处理 kernel 深度优化。两者互补。</p>
<hr />
<h2>BeeLlama 和 GoodbyeCain 编译评估</h2>
<p dir="auto"><strong>BeeLlama:</strong> 核心特性 KVarN/TCQ 依赖 q5 kernel，ROCm 上已废。DFlash 我们已有（模式 A, 84 tok/s）。不推荐编译。</p>
<p dir="auto"><strong>GoodbyeCain 最新 master (v50):</strong> ROCm 内存适配器有回归，无法加载模型到 GPU。不过 goodbyecain b9256 等价于我们已有的 CainSay fork（b9209 + 47 commits），SWA 稳定性已覆盖。</p>
<hr />
<h2>最终推荐 KV 配置</h2>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:left">模式</th>
<th style="text-align:left">推荐 KV</th>
<th style="text-align:left">推荐后端</th>
<th style="text-align:center">速度影响</th>
<th style="text-align:center">显存</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:left">单卡 AR 聊天</td>
<td style="text-align:left"><code>q4_0/q4_0</code></td>
<td style="text-align:left">Vulkan</td>
<td style="text-align:center">tg +17%</td>
<td style="text-align:center">-47%</td>
</tr>
<tr>
<td style="text-align:left"><strong>单卡 MTP</strong></td>
<td style="text-align:left"><strong><code>q4_0/q4_0</code></strong></td>
<td style="text-align:left"><strong>ROCm</strong></td>
<td style="text-align:center"><strong>gen +14% <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f680.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--rocket" style="height:23px;width:auto;vertical-align:middle" title="🚀" alt="🚀" /></strong></td>
<td style="text-align:center"><strong>-47%</strong></td>
</tr>
<tr>
<td style="text-align:left">单卡长文档</td>
<td style="text-align:left"><code>q4_0/q4_0</code></td>
<td style="text-align:left">ROCm</td>
<td style="text-align:center">pp +205%</td>
<td style="text-align:center">-47%</td>
</tr>
<tr>
<td style="text-align:left">双卡 layer 聊天</td>
<td style="text-align:left"><code>q4_0/q4_0</code></td>
<td style="text-align:left">Vulkan</td>
<td style="text-align:center">tg +57% <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f680.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--rocket" style="height:23px;width:auto;vertical-align:middle" title="🚀" alt="🚀" /></td>
<td style="text-align:center">-47%</td>
</tr>
<tr>
<td style="text-align:left">双卡 tensor</td>
<td style="text-align:left"><code>q8_0/q8_0</code></td>
<td style="text-align:left">ROCm</td>
<td style="text-align:center">—</td>
<td style="text-align:center">只能用 q8</td>
</tr>
</tbody>
</table>
<hr />
<h2>经验教训</h2>
<ol>
<li><strong>ROCm 和 Vulkan kernel 差异巨大。</strong> ROCm q5 崩得一塌糊涂，Vulkan 上一样跑 35 t/s。结论：这是 kernel 优化问题，不是 AMD GPU 硬件问题。</li>
<li><strong>两套后端互补，不是替代关系。</strong> ROCm 赢 prefill 和 MTP，Vulkan 赢 decode 和双卡。最合理的方案是根据场景切换。</li>
<li><strong>群友推荐值得试。</strong> 如果没试 Vulkan，我会一直以为"q5 kernel 在 AMD 上就是废的"。</li>
<li><strong>X99 平台的双卡性能上限受 PCIe 3.0 / DDR4 限制。</strong> CainSay 在 Ryzen 9700X + DDR5 跑 139 t/s，我们 28 t/s。硬件差距无解。</li>
</ol>
<hr />
<p dir="auto">有什么问题欢迎回复讨论。你们在 Vulkan 上试过双卡 tensor split 吗？或者试过其他模型（Gemma 4 之类的）在 Vulkan vs ROCm 上的表现？<br />
<img src="https://upload.lcz.me/uploads/8e7c39a0-6508-4b26-9f7c-c3f292756d97.jpeg" alt="eb9acb62-271e-46f5-a90f-ae5c965ad179-image.jpeg" class=" img-fluid img-markdown" /><br />
<img src="https://upload.lcz.me/uploads/fe6acfbe-1343-46b5-a0da-12ba0a8416d8.jpeg" alt="4c357bae-d5db-4765-8c09-a73ba3c60d67-image.jpeg" class=" img-fluid img-markdown" /><br />
<img src="https://upload.lcz.me/uploads/582c3774-dba0-4f2d-982d-ea394c1fb56f.jpeg" alt="8c20a4c9-0acd-4b0b-8b17-22e70ea0287e-image.jpeg" class=" img-fluid img-markdown" /><br />
<img src="https://upload.lcz.me/uploads/bf2cfce8-d908-42e2-89b7-ffd255eb8b63.jpeg" alt="d473b71f-5e48-49d5-931e-577c3333819d-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/topic/624/7900-xtx-rocm-kv-cache-量化交叉对比-anbeeld-论文搬到-rocm-的残酷现实</link><generator>RSS for Node</generator><lastBuildDate>Wed, 01 Jul 2026 08:04:22 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/624.rss" rel="self" type="application/rss+xml"/><pubDate>Fri, 19 Jun 2026 03:28:07 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 7900 XTX ROCm KV Cache 量化交叉对比：Anbeeld 论文搬到 ROCm 的残酷现实 on Fri, 19 Jun 2026 16:35:52 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/imbiplaza-asus" aria-label="Profile: imbiplaza-ASUS">@<bdi>imbiplaza-ASUS</bdi></a> 你看我发文就知道了，第一篇文大概是我开始折腾的第二天，到今天都还在折腾，哈哈哈，不过确实好玩</p>
]]></description><link>https://lcz.me/post/7538</link><guid isPermaLink="true">https://lcz.me/post/7538</guid><dc:creator><![CDATA[abaalei]]></dc:creator><pubDate>Fri, 19 Jun 2026 16:35:52 GMT</pubDate></item><item><title><![CDATA[Reply to 7900 XTX ROCm KV Cache 量化交叉对比：Anbeeld 论文搬到 ROCm 的残酷现实 on Fri, 19 Jun 2026 13:31:41 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/imbiplaza-asus" aria-label="Profile: imbiplaza-ASUS">@<bdi>imbiplaza-ASUS</bdi></a> 你的纠结我理解。9700 Pro RM6900 vs RTX 4500 Pro RM16900，差了一倍多的价格，性能没差多少，确实让人犹豫。</p>
<p dir="auto">我的看法是这样分场景判断：</p>
<ol>
<li>
<p dir="auto"><strong>如果你是做活赚钱的（接单、接项目、给客户交付）</strong>，那一倍差价是值得的。为什么呢？因为你花在 ROCm/Vulkan 调试上的每1小时，换算成你的时薪可能就亏了好几百。我见过太多人为了省这几千块，结果花了几周在 ROCm 各种坑上（Triton不支持、SageAttention NaN、Flash Attention没有...），那点时间成本早就超过硬件差价了。RTX 4500 Pro 插上就能跑，省下的时间用来接单赚钱更划算。</p>
</li>
<li>
<p dir="auto"><strong>如果你是纯折腾党/自用娱乐</strong>，那 9700 Pro 完全够用。ROCm 6.x + Vulkan 现在确实能跑大部分东西了（llama.cpp / ComfyUI / SD），虽然偶尔要踩坑，但折腾本身就是乐趣的一部分。而且 24G vs 32G 的显存差距在跑 70B 模型时确实很关键——9700 Pro 的 24G 跑 Qwen3-72B Q4 刚刚好，但你基本上没余量给 KV Cache了。</p>
</li>
<li>
<p dir="auto"><strong>中间路线</strong>：如果预算在 1W-1.2W RM 级别，可以收一张二手 RTX 3090 24G（~4-5K RM），性能不差，CUDA生态完整，剩下的钱配个好平台。比 RTX 4500 Pro 便宜一半多，但 CUDA 的省心体验是一样的。</p>
</li>
</ol>
<p dir="auto">总结：RTX 4500 Pro 32G 确实是好东西（Blackwell + NVFP4 + 32G显存），但 RM16900 的定价摆明了是面向企业采购的。个人用的话，要么咬牙当投资（接单赚钱），要么收 3090 或者蹲 9700 Pro 等 ROCm 继续完善。</p>
]]></description><link>https://lcz.me/post/7497</link><guid isPermaLink="true">https://lcz.me/post/7497</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Fri, 19 Jun 2026 13:31:41 GMT</pubDate></item><item><title><![CDATA[Reply to 7900 XTX ROCm KV Cache 量化交叉对比：Anbeeld 论文搬到 ROCm 的残酷现实 on Fri, 19 Jun 2026 08:41:18 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/566656661" aria-label="Profile: 566656661">@<bdi>566656661</bdi></a> 找到关键点了，原来把我的gpu 卸载拉满，可以从10/t 提升至18t/s</p>
]]></description><link>https://lcz.me/post/7474</link><guid isPermaLink="true">https://lcz.me/post/7474</guid><dc:creator><![CDATA[imbiplaza ASUS]]></dc:creator><pubDate>Fri, 19 Jun 2026 08:41:18 GMT</pubDate></item><item><title><![CDATA[Reply to 7900 XTX ROCm KV Cache 量化交叉对比：Anbeeld 论文搬到 ROCm 的残酷现实 on Fri, 19 Jun 2026 06:50:10 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/imbiplaza-asus" aria-label="Profile: imbiplaza-ASUS">@<bdi>imbiplaza-ASUS</bdi></a></p>
<p dir="auto">欸不對啊, 應該沒這麽少吧, 雖說引擎不對但是我跑在<a href="https://lcz.me/topic/441/%E8%AB%96-%E8%BF%B7%E4%BD%A0%E9%9B%BB%E8%85%A6-%E9%85%8D%E5%90%88-rtx-pro-4500-%E7%9A%84%E7%B0%A1%E5%96%AE%E6%B8%AC%E8%A9%A6-%E4%BB%A5%E5%8F%8Ablackwell%E6%9E%B6%E6%A7%8B%E4%B8%8B%E7%9A%84%E4%B8%80%E4%BA%9B%E5%98%97%E8%A9%A6-%E5%83%85%E9%99%90dense%E6%A8%A1%E5%9E%8B">vllm</a>也沒這麽差啊, 我現在已經在下載模型跟llama.cpp了</p>
<p dir="auto">晚上出一下Post?</p>
]]></description><link>https://lcz.me/post/7470</link><guid isPermaLink="true">https://lcz.me/post/7470</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Fri, 19 Jun 2026 06:50:10 GMT</pubDate></item><item><title><![CDATA[Reply to 7900 XTX ROCm KV Cache 量化交叉对比：Anbeeld 论文搬到 ROCm 的残酷现实 on Fri, 19 Jun 2026 06:20:49 GMT]]></title><description><![CDATA[<p dir="auto">含泪看着9700pro RM6900 vs RTX4500pro RM16900...</p>
<p dir="auto">cuda好像也没有特别快到很离谱的程度，只是少了折腾，就必须付出多一倍的价格。。。</p>
<p dir="auto">难道最终我只能花钱省事吗</p>
<p dir="auto">ggml_cuda_init: found 1 CUDA devices (Total VRAM: 32126 MiB):<br />
Device 0: NVIDIA RTX PRO 4500 Blackwell, compute capability 12.0, VMM: yes, VRAM: 32126 MiB</p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>model</th>
<th style="text-align:right">size</th>
<th style="text-align:right">params</th>
<th>backend</th>
<th style="text-align:right">ngl</th>
<th style="text-align:right">fa</th>
<th style="text-align:right">test</th>
<th style="text-align:right">t/s</th>
</tr>
</thead>
<tbody>
<tr>
<td>qwen35 27B Q5_K - Medium</td>
<td style="text-align:right">18.65 GiB</td>
<td style="text-align:right">26.90 B</td>
<td>CUDA</td>
<td style="text-align:right">999</td>
<td style="text-align:right">1</td>
<td style="text-align:right">pp512</td>
<td style="text-align:right">1751.21 ± 54.18</td>
</tr>
<tr>
<td>qwen35 27B Q5_K - Medium</td>
<td style="text-align:right">18.65 GiB</td>
<td style="text-align:right">26.90 B</td>
<td>CUDA</td>
<td style="text-align:right">999</td>
<td style="text-align:right">1</td>
<td style="text-align:right">tg128</td>
<td style="text-align:right">35.83 ± 0.02</td>
</tr>
</tbody>
</table>
<p dir="auto">build: dcad77cc3 (8933)</p>
]]></description><link>https://lcz.me/post/7469</link><guid isPermaLink="true">https://lcz.me/post/7469</guid><dc:creator><![CDATA[imbiplaza ASUS]]></dc:creator><pubDate>Fri, 19 Jun 2026 06:20:49 GMT</pubDate></item><item><title><![CDATA[Reply to 7900 XTX ROCm KV Cache 量化交叉对比：Anbeeld 论文搬到 ROCm 的残酷现实 on Fri, 19 Jun 2026 05:49:38 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/566656661" aria-label="Profile: 566656661">@<bdi>566656661</bdi></a> 对的，刚刚又找到一个自己编译ROCm的项目，宣称“优化”掉MI300等对7900xtx无效的内容，现在正在玩，回头继续po文</p>
]]></description><link>https://lcz.me/post/7464</link><guid isPermaLink="true">https://lcz.me/post/7464</guid><dc:creator><![CDATA[abaalei]]></dc:creator><pubDate>Fri, 19 Jun 2026 05:49:38 GMT</pubDate></item><item><title><![CDATA[Reply to 7900 XTX ROCm KV Cache 量化交叉对比：Anbeeld 论文搬到 ROCm 的残酷现实 on Fri, 19 Jun 2026 03:36:07 GMT]]></title><description><![CDATA[<p dir="auto"><s>省流: ROCm對比Vulkan就是負優化</s></p>
<p dir="auto">不過認真說, 其實很少人會主動去用ROCm/HIP, 雖說潛力很大和能銜接上CUDA内核的Call, 但是AMD自己一來只依賴開源, 二來估計發展路綫不兼容, 所以基本上擺爛了</p>
<p dir="auto">這樣下去估計三到四年就會被華爲的CANN給超過了吧, 畢竟華爲跟老黃一樣有自己掏錢養生態</p>
]]></description><link>https://lcz.me/post/7441</link><guid isPermaLink="true">https://lcz.me/post/7441</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Fri, 19 Jun 2026 03:36:07 GMT</pubDate></item></channel></rss>