<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[🔥 Lucebox DFlash 在 7900 XTX 上跑 Qwen3.6-27B — 完整复现与实测报告]]></title><description><![CDATA[<h2>写在前面</h2>
<p dir="auto">Reddit 有人发了 Lucebox DFlash 在 7900 XTX 上跑 Qwen3.6-27B 的测试，62.75 tok/s，看得手痒。趁着周末自己也搭了一遍，前后折腾了三天，踩了不少坑，也发现了一些有意思的东西。</p>
<p dir="auto">这份报告不只是复制粘贴 Reddit 的结论，而是包括了我们自己各种方案的横评对比。</p>
<hr />
<h2><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f4e6.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--package" style="height:23px;width:auto;vertical-align:middle" title="📦" alt="📦" /> 硬件配置</h2>
<p dir="auto">+-----------------------------------+------------------------------------------------+<br />
| 组件                              | 详情                                            |<br />
+-----------------------------------+------------------------------------------------+<br />
| CPU                               | Intel Xeon E5-2682 v4 × 2 (32C/64T)             |<br />
| 主板                              | 华强北白牌X99-6Plus 槽距63mm pcie3.0（16x<em>4 8x</em>2）|<br />
| GPU                               | AMD Radeon RX 7900 XTX 24GB (Navi 31)           |<br />
| 显存带宽                          | ~936 GB/s                                        |<br />
| 系统内存                          | 62 GiB DDR4 ECC                                  |<br />
| 系统盘                            | SATA SSD                                        |<br />
| 额外 GPU（后处理/语音用）         | NVIDIA GeForce RTX 3080 Ti 12GB                   |<br />
+-----------------------------------+-------------------------------------------------+</p>
<blockquote>
<p dir="auto"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f446.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--point_up_2" style="height:23px;width:auto;vertical-align:middle" title="👆" alt="👆" /> <strong>注：</strong> 3080 Ti 插在机器上但做的是 ComfyUI 视频后处理和 VoxCPM 声线转换，测 LLM 时完全不参与。不过后文会提到——<strong>Vulkan 后端不会自动隔离它</strong>，这是个坑。</p>
</blockquote>
<hr />
<h2><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f4bf.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--cd" style="height:23px;width:auto;vertical-align:middle" title="💿" alt="💿" /> 软件环境</h2>
<p dir="auto">+-----------------------------------+----------------------------------------+<br />
| 组件                              | 版本                                   |<br />
+-----------------------------------+----------------------------------------+<br />
| OS                                | Ubuntu 24.04 LTS                       |<br />
| Kernel                            | 6.8.0-124-generic                      |<br />
| ROCm                              | 7.2.0                                  |<br />
| llama.cpp                         | 3ebe862b5 (2026-06)                    |<br />
| Lucebox DFlash                    | 73678fa (master, HIP PR #119)          |<br />
+-----------------------------------+----------------------------------------+</p>
<blockquote>
<p dir="auto">对比的 Reddit 帖文用的是 Ubuntu 26.04 + ROCm 7.1，我们稍微新一点。但实际跑分差异主要不在这。</p>
</blockquote>
<hr />
<h2>🧪 整个测试历程（三天踩坑实录）</h2>
<h3>Day 1: 先试 MTP，把参数撸了个遍</h3>
<p dir="auto">最开始没发现 DFlash，先用 llama.cpp 自带的 <strong>MTP (Multi-Token Prediction)</strong> 投机解码。目标是用 Huihui 的无审查 Q4_K 模型。</p>
<h4>MTP 参数调优</h4>
<p dir="auto">MTP 有个核心参数： 投机个数 n（每次猜几个 token）。</p>
<p dir="auto">+-----------+--------+--------+----------------+<br />
| n 值       | tok/s  | 加速比  | 说明           |<br />
+-----------+--------+--------+----------------+<br />
| 无 MTP     | 30.7   | 1.00x  | 纯自回归基线   |<br />
| n=2        | 43.3   | 1.41x  | 还行           |<br />
| <strong>n=3</strong>    | 47.3   | 1.54x  | <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3c6.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--trophy" style="height:23px;width:auto;vertical-align:middle" title="🏆" alt="🏆" /> 最优        |<br />
| n=4        | 40.7   | 1.32x  | 过度投机，反降 |<br />
+-----------+--------+--------+----------------+</p>
<p dir="auto"><strong>结论：</strong> 在 RDNA3 上 n=3 是甜点。n=4 时 MTP 头预测的 token 接受率下降，白白浪费算力。</p>
<h4>ROCm 优化参数验证（血泪教训）</h4>
<p dir="auto">网上抄了一堆「优化参数」一个个验证（编者注：有agent就是好，看到论坛内的贴/X上面的贴不管有没有用就直接扔<br />
给agent进行分析匹配，然后一项项让她自己随即跑，省下不少时间，就是token烧不少了）：</p>
<p dir="auto">+--------------------+--------+--------+----------------------------+<br />
| 参数               | TG 前  | TG 后  | 结论                       |<br />
+--------------------+--------+--------+----------------------------+<br />
| --batch-size 1024  | 47.3   | 47.3   | ≈ 完全无影响               |<br />
| --flash-attn on    | 47.3   | 47.3   | ≈ 完全无影响               |<br />
| --cache-ram 0      | 47.3   | 48.7   | ≈ 可以忽略                 |<br />
| 全开(3个全加)      | 47.3   | 47.3   | ≈ 完全无影响               |<br />
| MMVQ_MAX_BATCH=3   | 47.3   | 30.7   | <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> 降30%是毒药             |<br />
| --no-mmap          | 47.3   | OOM    | <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f480.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--skull" style="height:23px;width:auto;vertical-align:middle" title="💀" alt="💀" /> 直接在 ROCm 上报错崩溃  |<br />
+--------------------+--------+--------+----------------------------+</p>
<p dir="auto"><strong>结论：</strong> ROCm + RDNA3 上绝大部分社区「优化参数」都是抄 CUDA 的，搬过来要么没效果要么反效果。<strong>核心只有 <code>--spec-type draft-mtp --spec-draft-n-max 3</code></strong>，其他全删掉就是最优。</p>
<hr />
<h3>Day 2: Vulkan 对比 + 发现 3080 Ti 污染</h3>
<p dir="auto">想看看 Vulkan 和 ROCm 有多大差距，结果发现了一个大坑。</p>
<h4>双 GPU 的 Vulkan 陷阱</h4>
<p dir="auto">+-----------------------------+--------+----------------------------------+<br />
| 配置                        | tok/s  | 说明                             |<br />
+-----------------------------+--------+----------------------------------+<br />
| ROCm (纯 7900 XTX)          | 47.3   | <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3c6.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--trophy" style="height:23px;width:auto;vertical-align:middle" title="🏆" alt="🏆" /> ROCm 天然只看 AMD GPU         |<br />
| Vulkan (默认, 双卡都在)     | 25~29  | <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> 被 3080 Ti 分走部分 work       |<br />
| Vulkan + VK_ICD_FILENAMES   | ~0     | <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> RADV 退 CPU, GPU 0%            |<br />
| Vulkan + GGML_VULKAN_DEVICE | 25~29  | <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> 设了也没用，3080 Ti 仍占 6.9GB |<br />
+-----------------------------+--------+----------------------------------+</p>
<p dir="auto"><strong>细说 Vulkan 的坑：</strong></p>
<p dir="auto"><strong><code>GGML_VULKAN_DEVICE=1</code> 无法真正隔离 GPU</strong> — 设了之后 7900 XTX 干活，但 3080 Ti 仍然被分配了 ~6.9GB 显存。两张卡之间 PCIe 来回走，带宽瓶颈直接拖死。</p>
<p dir="auto"><strong><code>VK_ICD_FILENAMES</code> 可以物理隐藏 3080 Ti</strong>，但只能用 RADV 开源驱动（不能用 AMD 官方驱动）。RADV 下 compute 全退 CPU（GPU 0%, CPU 99%），根本跑不动。</p>
<p dir="auto"><strong>结论：ROCm 才是纯 7900 XTX 的唯一可靠后端。</strong> 之前谣传的 Vulkan 好用，全是因为没发现 3080 Ti 在偷算力。</p>
<h4>MTP 精度敏感</h4>
<p dir="auto">IQ4_XS GGUF 有的版本自带 MTP 层有的没有。如果模型不带 MTP 层，<code>--spec-type draft-mtp</code> 直接报 <code>model doesn't contain MTP layers</code>。就算带了，IQ4_XS 的接受率也只有 ~34%，不如 Q4_K 的 ~50%。</p>
<hr />
<h3>Day 3: DFlash 登场</h3>
<p dir="auto">社区发现 Lucebox DFlash 在 AMD 上能跑出 2.2x 加速，立马安排。</p>
<h4>编译</h4>
<pre><code class="language-bash">git clone https://github.com/Luce-Org/lucebox-hub.git
cd lucebox-hub
git submodule update --init --recursive
cd dflash

cmake -B build -S . \
  -DCMAKE_BUILD_TYPE=Release \
  -DDFLASH27B_USE_HIP=ON \
  -DCMAKE_HIP_ARCHITECTURES="gfx1100" \
  -DROCM_PATH=/opt/rocm-7.2.0

cmake --build build --target test_dflash -j$(nproc)
</code></pre>
<p dir="auto"><strong>踩坑：</strong> CMakeLists.txt 引用了不存在的 <code>src/prefix_cache.cpp</code>，删掉该行即可。</p>
<h4><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/26a0.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--warning" style="height:23px;width:auto;vertical-align:middle" title="⚠" alt="⚠" />️ 模型层数陷阱（踩了两次）</h4>
<p dir="auto">DFlash 的草稿模型基于 Qwen3.6 原版架构（64 层），所以<strong>主模型也必须是 64 层</strong>。我们最早用的 Huihui Q4_K 有 <strong>65 层</strong>（含 MTP 头），DFlash 加载直接不兼容。</p>
<p dir="auto">正确搭配必须是 64 层模型。</p>
<h4>测量方法的坑</h4>
<p dir="auto">一开始用 <code>scripts/run.py</code> 单 prompt 测，只跑出 <strong>56.14 tok/s</strong>。后来发现 Reddit 帖子用的是 <code>bench_he.py</code>（10 道 HumanEval 编程题平均），测出来的才是纯解码速度：</p>
<pre><code class="language-bash">DFLASH_BIN=$PWD/build/test_dflash \
DFLASH_TARGET=/path/to/64层主模型.gguf \
DFLASH_DRAFT=models/dflash-draft-3.6-q8_0.gguf \
DFLASH27B_DRAFT_SWA=2048 \
DFLASH27B_PREFILL_UBATCH=512 \
  python3 scripts/bench_he.py --n-gen 128 --ddtree-budget 8
</code></pre>
<hr />
<h2><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f4ca.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--bar_chart" style="height:23px;width:auto;vertical-align:middle" title="📊" alt="📊" /> 全部方案横向对比</h2>
<p dir="auto">+--------------------------------+---------+--------+----------------------------+<br />
| 方案                            | tok/s   | 加速比  | 说明                       |<br />
+--------------------------------+---------+--------+----------------------------+<br />
| Pure AR (llama.cpp HIP)        | 30.83   | 1.00x  | 自回归基线                 |<br />
| ROCm MTP n=2 (Q4_K)           | 43.3    | 1.40x  | 早期 MTP 配置              |<br />
| ROCm MTP n=3 (Q4_K)           | 47.3    | 1.53x  | <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3c6.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--trophy" style="height:23px;width:auto;vertical-align:middle" title="🏆" alt="🏆" /> MTP 最优                |<br />
| ROCm MTP n=4 (Q4_K)           | 40.7    | 1.32x  | 过度投机                   |<br />
| Vulkan MTP (受3080 Ti污染)    | 25~29   | 0.9x   | <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> 比纯AR还慢              |<br />
| DFlash Q4 draft + budget=22   | 27.03   | 0.88x  | <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> 草稿太慢+验证树太大     |<br />
| DFlash chain (无DDTree)       | 64.23   | 2.08x  | 简单策略还行               |<br />
| DFlash Q8 draft + budget=8    | <strong>68.80</strong>|<strong>2.23x</strong>| <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3c6.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--trophy" style="height:23px;width:auto;vertical-align:middle" title="🏆" alt="🏆" /><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3c6.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--trophy" style="height:23px;width:auto;vertical-align:middle" title="🏆" alt="🏆" /><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3c6.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--trophy" style="height:23px;width:auto;vertical-align:middle" title="🏆" alt="🏆" /> <strong>全场最佳</strong>      |<br />
| DFlash Q8 draft + budget=22   | 60.94   | 1.98x  | budget 太大浪费带宽        |<br />
+--------------------------------+---------+--------+----------------------------+</p>
<hr />
<h2><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f4c8.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--chart_with_upwards_trend" style="height:23px;width:auto;vertical-align:middle" title="📈" alt="📈" /> DFlash 完整实测明细</h2>
<h3>1:1 对照 Reddit</h3>
<p dir="auto">+---------------------+-------------------+-------------------+--------+<br />
| 项目                | Reddit 帖文       | <strong>我们实测</strong>       | 差异   |<br />
+---------------------+-------------------+-------------------+--------+<br />
| AR 基线             | 28.07 tok/s      | 30.83 tok/s       | +10%   |<br />
| DFlash DDTree b=8   | 62.75 tok/s      | <strong>68.80 tok/s</strong>   | +9.6%  |<br />
| 加速比              | 2.24x             | <strong>2.23x~2.45x</strong>   | 持平   |<br />
| 平均提交长度        | 4.93              | 4.79               | -3%    |<br />
| ROCm                | 7.1               | 7.2                | —      |<br />
| 主模型              | 原版 Qwen3.6 27B  | Heretic 无审查版   | —      |<br />
+---------------------+-------------------+-------------------+--------+</p>
<h3>bench_he.py 10 题明细</h3>
<p dir="auto">+-----------------------------+-------+------+--------+<br />
| prompt                      | tok/s | AL   | 接受率 |<br />
+-----------------------------+-------+------+--------+<br />
| has_close_elements          | 41.63 | 2.91 | 18.2%  |<br />
| separate_paren_groups       | 68.61 | 4.92 | 30.8%  |<br />
| truncate_number             | 61.05 | 4.13 | 25.8%  |<br />
| below_zero                  | 74.61 | 5.12 | 32.0%  |<br />
| mean_absolute_deviation     | 55.97 | 4.43 | 27.7%  |<br />
| intersperse                 | 89.24 | 6.10 | 38.1%  |<br />
| parse_nested_parens         | 70.85 | 4.92 | 30.8%  |<br />
| filter_by_substring         | 69.46 | 4.74 | 29.6%  |<br />
| sum_product                 | 93.42 | 6.40 | 40.0%  |<br />
| rolling_max                 | 63.19 | 4.27 | 26.7%  |<br />
+-----------------------------+-------+------+--------+<br />
| <strong>MEAN</strong>                    |<strong>68.80</strong>|<strong>4.79</strong>|<strong>30.0%</strong>|<br />
+-----------------------------+-------+------+--------+</p>
<h3>DFlash 时序分解（budget=8）</h3>
<p dir="auto">+----------------+----------+--------+<br />
| 阶段           | 耗时/步  | 占比   |<br />
+----------------+----------+--------+<br />
| draft_build    | 0.61 ms  | 0.9%   |<br />
| draft_compute  | 11.91 ms | 17.8%  |<br />
| verify_build   | 1.66 ms  | 2.5%   |<br />
| <strong>verify_compute</strong> | <strong>51.85 ms</strong> | <strong>77.6%</strong> |<br />
| 其他           | 0.67 ms  | 1.0%   |<br />
| <strong>合计每步</strong>   | <strong>66.85 ms</strong> | —     |<br />
| <strong>每步提交</strong>   | <strong>3.76 tokens</strong> | —     |<br />
+----------------+----------+--------+</p>
<p dir="auto">瓶颈在验证阶段（78%），这是 RDNA3 的 WF32 物理上限。</p>
<h3>DFlash 参数调优对比</h3>
<p dir="auto">+---------------------------+--------+---------------------------------------+<br />
| 参数                      | tok/s  | 说明                                  |<br />
+---------------------------+--------+---------------------------------------+<br />
| Q4 draft + budget=22      | 27.03  | <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> Q4 反量化拖草稿 + 验证树太大        |<br />
| <strong>Q8 draft + budget=8</strong>   |<strong>68.80</strong> | <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3c6.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--trophy" style="height:23px;width:auto;vertical-align:middle" title="🏆" alt="🏆" /> AMD RDNA3 上 Q8 反量化快于 Q4     |<br />
| Q8 draft + budget=22      | 60.94  | budget 太大，验证树浪费 GDDR6 带宽    |<br />
| chain（无 DDTree）         | 64.23  | 短生成更快，长上下文不如 DDTree       |<br />
+---------------------------+--------+---------------------------------------+</p>
<hr />
<h2><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f511.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--key" style="height:23px;width:auto;vertical-align:middle" title="🔑" alt="🔑" /> 关键发现（不只是抄结论）</h2>
<h3>1. Budget=8 是 7900 XTX 的甜点 <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /></h3>
<p dir="auto">完全验证了 Reddit 和 PR #156 的结论。budget=8 时验证树大小刚好填满 GDDR6 的 wavefront，再大就浪费了。</p>
<h3>2. 无审查版不影响 DFlash 性能 <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /></h3>
<p dir="auto">Abliterate 改的是 attention 里拒绝回答的方向，对草稿接受率无影响。实测 68.80 tok/s 高于 Reddit 原版的 62.75，说明不存在负面作用。</p>
<h3>3. ROCm 优化参数基本都是玄学 <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /></h3>
<p dir="auto">在 RDNA3 上 batch-size、flash-attn 这些 CUDA 优化全都没效果。<code>--no-mmap</code> 甚至直接 OOM。越简单越好。</p>
<h3>4. 双 GPU 机器测 Vulkan 要小心 <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/26a0.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--warning" style="height:23px;width:auto;vertical-align:middle" title="⚠" alt="⚠" />️</h3>
<p dir="auto">Vulkan 默认把所有 GPU 拉进来干活，3080 Ti 被分配 ~6.9GB显存，跨卡 PCIe 瓶颈直接拖死。ROCm 天然隔离 NVIDIA，才是正确方案。</p>
<h3>5. 测量方法很重要 <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/26a0.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--warning" style="height:23px;width:auto;vertical-align:middle" title="⚠" alt="⚠" />️</h3>
<p dir="auto"><a href="http://run.py" rel="nofollow ugc">run.py</a> 单 prompt → 56.14 tok/s（含预填充开销）<br />
bench_he.py 多 prompt 平均 → 68.80 tok/s（纯解码速度）<br />
对标别人必须用同款工具。</p>
<h3>6. MTP n=3 是第二选择</h3>
<p dir="auto">如果不用 DFlash，ROCM MTP n=3 + Q4_K 是 47.3 tok/s 的可靠方案。但 Q4_K_M + DFlash 的 68.8 tok/s 直接拉开 45% 差距。</p>
<hr />
<h2><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3af.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--dart" style="height:23px;width:auto;vertical-align:middle" title="🎯" alt="🎯" /> 最终结论</h2>
<p dir="auto"><strong>Lucebox DFlash 在 RX 7900 XTX (24GB) + Qwen3.6-27B 上：</strong></p>
<ul>
<li>实测 <strong>68.80 tok/s</strong>（bench_he.py 10 HumanEval tg128）</li>
<li>相比 llama.cpp HIP 纯自回归基线 30.83 tok/s → <strong>2.23x 加速</strong></li>
<li>超越 Reddit 帖文 62.75 tok/s，证实 AMD 卡在 DFlash 上确实能跑出好成绩</li>
</ul>
<hr />
<h2><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f517.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--link" style="height:23px;width:auto;vertical-align:middle" title="🔗" alt="🔗" /> 参考链接</h2>
<ul>
<li>Lucebox DFlash: <a href="https://github.com/Luce-Org/lucebox-hub" rel="nofollow ugc">https://github.com/Luce-Org/lucebox-hub</a></li>
<li>草稿模型: <a href="https://huggingface.co/Lucebox/Qwen3.6-27B-DFlash-GGUF" rel="nofollow ugc">https://huggingface.co/Lucebox/Qwen3.6-27B-DFlash-GGUF</a></li>
<li>主模型(Heretic 无审查): <a href="https://huggingface.co/Youssofal/Qwen3.6-27B-Abliterated-Heretic-Uncensored-GGUF" rel="nofollow ugc">https://huggingface.co/Youssofal/Qwen3.6-27B-Abliterated-Heretic-Uncensored-GGUF</a></li>
<li><a href="http://lcz.me" rel="nofollow ugc">lcz.me</a> 论坛帖: <a href="https://lcz.me/topic/195/">https://lcz.me/topic/195/</a></li>
<li>Reddit 原帖: <a href="https://www.reddit.com/r/LocalLLaMA/comments/1tgepbd/" rel="nofollow ugc">https://www.reddit.com/r/LocalLLaMA/comments/1tgepbd/</a></li>
</ul>
<p dir="auto">写在最后：折腾的路还在继续，第二篇帖子已经写好了，再折腾半天即可发布~！<br />
附上简陋的测试环境、杂乱的线材、远远比不上各位前辈们的海景房大机箱<br />
<img src="https://upload.lcz.me/uploads/c8481adc-513b-449c-915a-f19bc62aab1f.jpg" alt="图片_20260610101156.jpg" class=" img-fluid img-markdown" /></p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/4799c867-851b-4a2b-b38e-edfc047b7d0b.jpg" alt="图片_20260610101147.jpg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/topic/500/lucebox-dflash-在-7900-xtx-上跑-qwen3.6-27b-完整复现与实测报告</link><generator>RSS for Node</generator><lastBuildDate>Sat, 13 Jun 2026 19:26:12 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/500.rss" rel="self" type="application/rss+xml"/><pubDate>Wed, 10 Jun 2026 02:19:23 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 🔥 Lucebox DFlash 在 7900 XTX 上跑 Qwen3.6-27B — 完整复现与实测报告 on Fri, 12 Jun 2026 15:00:31 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/abaalei" aria-label="Profile: abaalei">@<bdi>abaalei</bdi></a> 你好啊 晚安喔, 我的cc努力了一天 把hermes調用工具修好了,但速度只有22左右,暫時修到這,,,對齊你給你的資訊後,他最後一次改的,調用工具又失敗了,等額度恢復再繼續折騰 ,分享我的進程 <a class="plugin-mentions-user plugin-mentions-a" href="/user/colt" aria-label="Profile: colt">@<bdi>colt</bdi></a> 也同步給你喔</p>
<h1>DFlash Hermes Server — 現況紀錄</h1>
<h2>核心需求（不可談判）</h2>
<ul>
<li>Context: 32k 先跑通，後上 64k</li>
<li>用途：Hermes agent 接 Telegram 任務請求</li>
<li>速度目標：decode 45 tok/s 以上</li>
<li>舊腳本 q4_64k_telegram.sh 可 30-40 tok/s，DFlash 要超越它</li>
<li>8k/16k context 不算完成</li>
</ul>
<h2>硬體</h2>
<ul>
<li>GPU: AMD Radeon RX 7900 XTX 24GB，ROCm/HIP，gfx1100 (RDNA3)</li>
<li>ComfyUI 在 port 8188（第二張 GPU 路徑），不能動</li>
<li>現有 production fallback: q4_64k_telegram.sh，不能覆蓋</li>
</ul>
<hr />
<h2>目前主腳本</h2>
<p dir="auto"><code>/home/jaran/dflash_oai_v2.sh</code></p>
<p dir="auto">現在的參數：</p>
<ul>
<li>Binary: <code>/home/jaran/src/lucebox-hub/server/build-hip-7900xtx/dflash_server</code></li>
<li>Target: Qwen3.6-27B-Q4_K_M.gguf（14.99 GiB GPU）</li>
<li>Draft: dflash-draft-3.6-q4_k_m.gguf（Q4，request-scoped）</li>
<li><code>--max-ctx 32768</code></li>
<li><code>--fa-window 2048</code></li>
<li><code>--cache-type-k tq3_0 --cache-type-v tq3_0</code></li>
<li><code>--chunk 256</code></li>
<li><code>--ddtree --ddtree-budget 8</code></li>
<li><code>--draft-residency request-scoped</code></li>
<li><code>--default-max-tokens 1024 --hard-limit-reply-budget 1024</code></li>
<li>env: <code>DFLASH27B_PREFILL_UBATCH=512</code></li>
</ul>
<hr />
<h2>目前狀態：能跑，但完全不可用</h2>
<h3>觀察到的 log 數字（tq3_0 KV + Q4 draft）</h3>
<pre><code>prefill=9.0s  for 5219 tokens
decode=1.6s  speed=13.1 tok/s
total: 10.8s for 21 tokens output → 1.9 tok/s overall
</code></pre>
<ul>
<li>9 秒 silent prefill → Hermes/Telegram 等不了，直接當掉</li>
<li>Decode 本身 13 tok/s，離 45 tok/s 目標還差 3 倍多</li>
<li>腳本沒 crash，是從 Hermes bot 角度「沒回應」</li>
</ul>
<h3>速度比較</h3>
<ul>
<li>預期（文章 bench）：68 tok/s（test_dflash + 短 HumanEval prompt）</li>
<li>現在 dflash_server：13 tok/s decode，580 tok/s prefill（9s/5k tokens）</li>
<li>差距：prefill 慢 5x，decode 慢 5x</li>
</ul>
<hr />
<h2>已試過、失敗的方向</h2>
<h3>tq3_0 → q4_0 KV（我的改法，已還原）</h3>
<ul>
<li>目的：以為 tq3_0 會強制 CHUNKED FA kernel（無 MMA），換 q4_0 開 MMA</li>
<li>結果：速度完全沒變（prefill 仍然 9.0s，decode 仍然 13.1 tok/s）</li>
<li>副作用：第 2 次 request OOM（<code>ggml_gallocr_reserve_n_impl: failed to allocate 480.95 MiB</code>）</li>
<li>結論：KV quantization 類型對速度無影響；q4_0 KV 比 tq3_0 多 0.5 GiB，讓第 2 request 的 gallocr 配不到</li>
<li>已還原回 tq3_0</li>
</ul>
<h3>fa-window 0 → 2048</h3>
<ul>
<li>沒有解決 OOM（Q8 draft 還是爆）</li>
<li>但有助省顯存（codex 改的，保留）</li>
</ul>
<h3>Q8 draft → Q4 draft</h3>
<ul>
<li>解決了 <code>[unpark] draft restored</code> OOM</li>
<li>代價：draft quality 降，acceptance rate 只有 10-23%，avg_commit 2.5-4.75</li>
</ul>
<hr />
<h2>已知但未解的問題</h2>
<h3>問題 1：prefill 為何慢 5x？</h3>
<ul>
<li>5219 tokens / 9s = 580 tok/s，預期應該 3000+ tok/s</li>
<li><code>--chunk 256</code> 傳給 ServerConfig，但 qwen35 backend 的 <code>do_prefill</code> 讀的是 <code>DFLASH27B_PREFILL_UBATCH</code> env var</li>
<li><code>DFLASH27B_PREFILL_UBATCH=512</code> 在 script 裡已設，backend 實際用 512 token/chunk</li>
<li><code>--chunk 256</code> 和 <code>DFLASH27B_PREFILL_UBATCH</code> 是否同一件事、<code>--chunk</code> 到底控制什麼，尚未查清</li>
</ul>
<h3>問題 2：gallocr OOM 在第 2 request</h3>
<ul>
<li>只有 q4_0 KV 會出現，tq3_0 KV 不會</li>
<li>480.95 MiB 配置失敗 (<code>ggml_gallocr_reserve_n_impl</code>)</li>
<li>原因不明——VRAM 估算應該夠，但實際不夠</li>
</ul>
<h3>問題 3：decode 為何慢 5x？</h3>
<ul>
<li>每個 spec-decode step 約 183ms，bandwidth-limited 應該 15ms</li>
<li>GPU 是否在 high performance mode？<code>card1</code> 是否是正確的 DRM card？尚未確認</li>
<li>可能是 ROCm 小 kernel dispatch 累積 overhead</li>
</ul>
<hr />
<h2>尚未測試但可能有效的方向</h2>
<ol>
<li>
<p dir="auto"><strong>pflash mode</strong>（在 server_main.cpp 裡有 <code>--pflash</code> 選項）</p>
<ul>
<li>是一種「persistent flash prefill」，可能完全換掉 chunked prefill path</li>
<li>需查 pflash 在 qwen35/32k context 的 VRAM 需求和 API</li>
</ul>
</li>
<li>
<p dir="auto"><strong>DFLASH27B_PREFILL_UBATCH 調大</strong>（如 1024 或 2048）</p>
<ul>
<li>減少 GPU dispatch 次數：5219/1024 = 5 次 vs 5219/512 = 10 次</li>
<li>代價：gallocr scratch 增大，需確認 tq3_0 KV 下能否容納</li>
</ul>
</li>
<li>
<p dir="auto"><strong>GPU 電源模式確認</strong></p>
<ul>
<li>腳本用 <code>card1</code>，但 7900 XTX 可能是 <code>card0</code></li>
<li>若 power level 沒設到 high，decode 會慢數倍</li>
</ul>
</li>
<li>
<p dir="auto"><strong>prefix cache</strong></p>
<ul>
<li>目前 <code>--prefix-cache-slots 0</code>（關閉）</li>
<li>啟用後可快取 system prompt + tools（~2000 tokens），下次 request 只 prefill 新 tokens</li>
<li>代價：每個 slot 佔 ~full KV size VRAM</li>
</ul>
</li>
</ol>
<hr />
<hr />
<h2>2026-06-12 最新修改（已 rebuild）</h2>
<h3>Fix 1：F16 → Q8_0（lazy rollback path）</h3>
<ul>
<li>檔案：<code>src/qwen35/qwen35_target_graph.cpp</code> line 364</li>
<li><code>migrate_prefill_cache</code> 的 <code>ssm_intermediate</code> 用 F16，而 eager path 用 Q8_0</li>
<li>修正後節省 ~540 MiB VRAM</li>
</ul>
<h3>Fix 2：DFLASH27B_DRAFT_CTX_MAX=512 env var</h3>
<ul>
<li>新增 env var 支援到 <code>qwen35_backend.cpp</code> init() 開頭</li>
<li><strong>根本原因</strong>：<code>draft_ctx_max=4096</code>（預設）→ feature_mirror cap=4096 → 400 MiB VRAM</li>
<li>更重要：每個 decode step，draft 要處理 min(committed, 4096) tokens
<ul>
<li>5000+ token Hermes 系統提示後，draft 處理 <strong>4096 tokens</strong> 每步</li>
<li>文章 HumanEval bench = 300 tokens（短 prompt）→ 13.6x 差距</li>
<li>draft_compute: 4096 token = ~160ms &gt;&gt; verify 52ms，這是 183ms/step 的根本原因</li>
</ul>
</li>
<li>設 512：feature mirror 400 MiB → 50 MiB，draft_compute ~20ms</li>
<li>預估：total step ~82ms，avg_commit ~4.5 tokens → <strong>~55 tok/s</strong></li>
</ul>
<h3>Script 變更</h3>
<ul>
<li>加了 <code>DFLASH27B_DRAFT_CTX_MAX=512</code></li>
<li>已換 Q8 draft（上次就換了）</li>
</ul>
<hr />
<hr />
<h2>2026-06-12 Fix 3：<a href="http://fattn.cu:312" rel="nofollow ugc">fattn.cu:312</a> crash root cause + fix（已 rebuild）</h2>
<h3>Root cause</h3>
<ul>
<li><code>do_ar_decode</code> 在 temperature&gt;0（<code>needs_logit_processing()</code>=true）時被呼叫</li>
<li><code>do_ar_decode</code> hardcode <code>with_mask=false</code>、n_tokens=1</li>
<li>對 tq3_0 KV：<code>win_len_padded = round_up(win_len, 256)</code> → always divisible by 256</li>
<li><code>can_use_vector_kernel = K-&gt;ne[1]%256==0 = true</code> → dispatch VEC kernel</li>
<li>HIP: tq3_0 excluded from VEC (<code>#ifndef GGML_USE_HIP</code>) → GGML_ABORT at line 312</li>
</ul>
<h3>為何 Request 1 不 crash</h3>
<ul>
<li>Request 1 有 tools → temperature=0 → <code>needs_logit_processing()=false</code> → 走 spec-decode</li>
<li>Spec-decode verify/replay n_tokens≥2 → <code>need_mask = (n&gt;1) = true</code> → CHUNKED → OK</li>
</ul>
<h3>為何 Request 2 crash</h3>
<ul>
<li>Request 2 無 tools，temperature&gt;0（預設）→ AR decode</li>
<li><code>do_ar_decode</code> n_tokens=1, with_mask=false → VEC → CRASH</li>
</ul>
<h3>Fix（已應用到 qwen35_backend.cpp）</h3>
<ol>
<li><code>init()</code> 第 232 行：detect tq3_0 KV → <code>cfg_.kq_stride_pad = 256</code></li>
<li><code>do_ar_decode</code> loop：<code>ar_with_mask = (cfg_.kq_stride_pad &gt; KQ_MASK_PAD)</code> → with_mask=true for tq3_0</li>
<li><code>do_ar_decode</code> loop：mask 填充 code（<code>build_causal_mask</code> + <code>ggml_backend_tensor_set</code>）</li>
</ol>
<hr />
<hr />
<h2>2026-06-12 Tool call 調查與修復（進行中）</h2>
<h3>問題現象</h3>
<ul>
<li>Tool call 失敗：server log <code>tool_call parse failed; suppressing buffered tool text bytes=11</code></li>
<li>11 bytes = <code>&lt;tool_call&gt;</code>（token 248058），model 生了 <code>&lt;tool_call&gt;</code> 後立刻 EOS</li>
<li>26 tokens 總輸出，finish=stop，0 個 tool call</li>
</ul>
<h3>發現的根本原因</h3>
<h4>原因 1：<code>--fa-window 2048</code> 截斷 attention 視窗（最關鍵）</h4>
<ul>
<li>Hermes 請求 prompt_tokens=6025，<code>--fa-window 2048</code> → decode 時只看最近 2048 tokens</li>
<li>系統提示（含 tool format 指令）在 token 0~4000，完全在 window 外</li>
<li>Model 想調 tool 但看不到格式指令 → 生 <code>&lt;tool_call&gt;</code> 後不知道放什麼 → EOS</li>
<li><strong>Fix</strong>: <code>--fa-window 0</code>（無限窗口，完整 attention）</li>
</ul>
<h4>原因 2：<code>tool_memory</code> miss → 歷史 tool call 渲染為空（次要）</h4>
<ul>
<li>Server 重啟後 in-memory tool_memory 清空</li>
<li><code>normalize_chat_messages</code> 對 <code>role=assistant + tool_calls</code> 的訊息查不到原始文字</li>
<li>RESPONSES format 有 fallback，chat format 沒有 → 歷史 tool call 變成空 content</li>
<li>Model 看到「空的 assistant turn + tool_response」，context 不完整</li>
<li><strong>Fix</strong>: <code>http_server.cpp</code> 加 fallback：從 <code>tool_calls</code> JSON 重建 <code>&lt;tool_call&gt;</code> 格式</li>
</ul>
<h4>原因 3（原始）：tq3_0 KV + <a href="http://fattn.cu:312" rel="nofollow ugc">fattn.cu:312</a> crash（已修復）</h4>
<ul>
<li>temperature&gt;0 時走 AR decode，tq3_0 觸發 VEC kernel，HIP 不支援 → ABORT</li>
<li><strong>Fix</strong>: <code>kq_stride_pad=256</code> + <code>ar_with_mask=true</code> + mask 填充</li>
</ul>
<h3>目前修改清單</h3>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>檔案</th>
<th>修改內容</th>
</tr>
</thead>
<tbody>
<tr>
<td><code>src/server/http_server.cpp</code></td>
<td>chat format tool_memory miss fallback：從 JSON 重建 <code>&lt;tool_call&gt;</code></td>
</tr>
<tr>
<td><code>dflash_oai_v2.sh</code></td>
<td><code>--fa-window 0</code>、換 Huihui 模型、移除 <code>--cache-type-k/v tq3_0</code>、移除 <code>HSA_OVERRIDE_GFX_VERSION</code></td>
</tr>
<tr>
<td><code>src/qwen35/qwen35_backend.cpp</code></td>
<td>Fix 3 tq3_0 fattn crash（kq_stride_pad + ar_with_mask）</td>
</tr>
</tbody>
</table>
<h3>作者建議參數（已對齊）</h3>
<ul>
<li>模型：Huihui-Qwen3.6-27B-abliterated.Q4_K_M.gguf</li>
<li>draft：dflash-draft-3.6-q8_0.gguf（Q8）</li>
<li><code>--fa-window 0</code></li>
<li><code>--ddtree-budget 8</code></li>
<li>KV cache：q4_0（default，無 tq3_0 的 HIP 問題）</li>
<li>不設 <code>HSA_OVERRIDE_GFX_VERSION</code>（ROCm 自動識別 gfx1100）</li>
</ul>
<h3>目前狀態</h3>
<ul>
<li>服務重啟中，等待測試 Hermes BSB tool call</li>
</ul>
<hr />
<hr />
<h2>2026-06-12 速度分析（第二輪）</h2>
<h3>測量基準</h3>
<pre><code>[spec-decode] tokens=84 time=3.938s speed=21.33 tok/s steps=25 accepted=60/400 (15%) avg_commit=3.36
prefill=12.0s decode=3.9s(21.3tok/s)
</code></pre>
<p dir="auto">目標：45+ tok/s，目前差 2.1x。</p>
<hr />
<h3>模型架構（從 GGUF metadata 讀出）</h3>
<pre><code>qwen35.block_count: 64
qwen35.full_attention_interval: 4      ← 每 4 層才有一個全 attention 層
qwen35.embedding_length: 5120
qwen35.ssm.inner_size: 6144
qwen35.ssm.state_size: 128
</code></pre>
<ul>
<li>64 層中：<strong>16 層</strong> = 全 attention（KV cache + FlashAttn）</li>
<li><strong>48 層</strong> = SSM（DeltaNet / gated_delta_net）— 無 KV cache，純矩陣遞推</li>
</ul>
<p dir="auto">Draft 模型 (<code>dflash-draft-3.6-q8_0.gguf</code><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f61e.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--disappointed" style="height:23px;width:auto;vertical-align:middle" title="):" alt="😞" /></p>
<ul>
<li><code>block_size: 16</code> — 每步生成 16 個投機 token</li>
<li><code>block_count: 5</code> — 5 層 attention-only 模型（很小）</li>
<li><code>n_target_layers: 5</code> — 從 target 取 5 層 hidden state 作輸入</li>
</ul>
<hr />
<h3>瓶頸根本原因：SSM 串行 kernel</h3>
<p dir="auto">spec-decode verify 步驟呼叫 <code>verify_batch()</code>（<code>qwen35_dflash_target.cpp:27</code>），其中：</p>
<ul>
<li><code>build_target_step(... capture_delta_intermediate=false ...)</code></li>
<li>→ <code>parent_ids = nullptr</code>（非 DDTree tree 路徑）</li>
<li>→ <code>cap_ptr = nullptr</code>（無 rollback capture）</li>
</ul>
<p dir="auto">這滿足啟用 chunked DeltaNet 的全部條件：</p>
<pre><code class="language-cpp">// qwen35_target_graph.cpp line 800
if (!parent_ids &amp;&amp; !cap &amp;&amp; n_seq_tokens &gt; 1) {
    if (const char * s = std::getenv("DFLASH27B_CHUNKED")) use_chunked = true;
}
</code></pre>
<p dir="auto">但預設關閉，原因：</p>
<blockquote>
<p dir="auto">"port produces correct shape but slightly wrong final state, causing AL degradation and loopy output."</p>
</blockquote>
<hr />
<h3>為何 DFLASH27B_CHUNKED=1 對我們是安全的</h3>
<ol>
<li>
<p dir="auto"><strong>verify 的 state 不影響最終輸出</strong>：</p>
<ul>
<li><code>snapshot_kv()</code> 在 verify 前保存 SSM state</li>
<li><code>restore_kv()</code> 在 verify 後立刻恢復（<code>qwen35_dflash_target.cpp:107</code>）</li>
<li>Replay 步驟重新跑接受的 tokens 來建立正確 state</li>
<li>→ chunked verify 的 state 誤差從來不被保留</li>
</ul>
</li>
<li>
<p dir="auto"><strong>n_tokens=16 ≤ CS=64 → n_chunks=1 → 無跨 chunk 誤差</strong>：</p>
<ul>
<li>chunked bug 發生在 n_chunks &gt; 1（即 n_tokens &gt; 64）時的跨 chunk state 傳播</li>
<li>我們的 block_size=16 永遠只有 1 個 chunk，算法正確</li>
<li>唯一影響：output logits 精度 → 接受率略降，但預計影響甚微</li>
</ul>
</li>
<li>
<p dir="auto"><strong>「loopy output」</strong> 可能是在不同測試條件（n_tokens &gt; 64 或沒有 restore）下觀察到的</p>
</li>
</ol>
<hr />
<h3>DRM 電源模式確認</h3>
<ul>
<li><code>card1</code>（vendor=0x1002:0x744c，25.7 GB）= RX 7900 XTX #1 → <code>power_dpm=high</code> ✓</li>
<li><code>card2</code>（vendor=0x1002:0x744c，25.7 GB）= RX 7900 XTX #2 → <code>power_dpm=auto</code>（ComfyUI）</li>
<li><code>HIP_VISIBLE_DEVICES=0</code> = card1 = DFlash 用的 GPU ✓</li>
<li>ROCm: <code>/opt/rocm</code> → <code>/etc/alternatives/rocm</code> → <code>/opt/rocm-7.2.0</code> → 一致，無 ABI 問題</li>
</ul>
<h3>Build 狀態確認（作者建議已對比）</h3>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>項目</th>
<th>狀態</th>
</tr>
</thead>
<tbody>
<tr>
<td><code>DFLASH27B_HIP_SM80_EQUIV</code></td>
<td>OFF ✓</td>
</tr>
<tr>
<td><code>DFLASH27B_FA_ALL_QUANTS</code></td>
<td>ON ✓</td>
</tr>
<tr>
<td>ROCm 版本</td>
<td>7.2.0（非 7.2.3 but same ABI）✓</td>
</tr>
<tr>
<td>LD_LIBRARY_PATH</td>
<td><code>/opt/rocm/lib</code> = <code>/opt/rocm-7.2.0/lib</code> 同一個 ✓</td>
</tr>
</tbody>
</table>
<hr />
<h3>速度優化行動項</h3>
<p dir="auto"><strong>已套用：<code>DFLASH27B_CHUNKED=1</code>（dflash_oai_v2.sh）</strong></p>
<ul>
<li>預期效果：SSM 2-3x 加速 → step time 157ms → ~55ms</li>
<li>預期 tok/s：3.36 avg_commit / 0.055s = <strong>~61 tok/s</strong>（超過 45 目標）</li>
<li>無需 rebuild，直接重啟生效</li>
</ul>
<p dir="auto"><strong>待測試：啟動後觀察</strong></p>
<pre><code>[spec-decode] tokens=? time=? speed=? avg_commit=?
</code></pre>
<p dir="auto">預期 speed &gt; 45 tok/s，avg_commit 可能略降但 step_time 大降。</p>
<hr />
<h3>仍未做的優化（備用）</h3>
<ol>
<li>
<p dir="auto"><strong>前綴快取</strong> <code>--prefix-cache-slots 4</code>：</p>
<ul>
<li>快取系統提示 ~3000 tokens → prefill 12s 降到 ~6s</li>
<li>不影響 decode 速度，但降低 Hermes 感受的首 token 延遲</li>
<li>先測 CHUNKED 效果，如果 prefill 仍是瓶頸再考慮</li>
</ul>
</li>
<li>
<p dir="auto"><strong>增大 <code>DFLASH27B_DRAFT_CTX_MAX</code></strong>（例如 1024）：</p>
<ul>
<li>draft 看更多 context → 接受率提升</li>
<li>代價：draft 步驟略慢</li>
<li>目前 CHUNKED 應已足夠，此項備用</li>
</ul>
</li>
</ol>
<hr />
<h2>不要再做的事</h2>
<ul>
<li>不要再調 KV quantization 當速度 fix（已確認無效，SSM 75% 主導）</li>
<li>不要把 max-ctx 縮到 8k/16k</li>
<li>不要動 q4_64k_telegram.sh</li>
<li>不要動 ComfyUI port 8188</li>
</ul>
]]></description><link>https://lcz.me/post/6524</link><guid isPermaLink="true">https://lcz.me/post/6524</guid><dc:creator><![CDATA[CHIA AN YANG]]></dc:creator><pubDate>Fri, 12 Jun 2026 15:00:31 GMT</pubDate></item><item><title><![CDATA[Reply to 🔥 Lucebox DFlash 在 7900 XTX 上跑 Qwen3.6-27B — 完整复现与实测报告 on Fri, 12 Jun 2026 14:33:42 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/chia-an-yang" aria-label="Profile: CHIA-AN-YANG">@<bdi>CHIA-AN-YANG</bdi></a> 我不是大神，ai才是，哈哈，下面是我家agent的回复，你试试看？</p>
<p dir="auto"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3b5.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--musical_note" style="height:23px;width:auto;vertical-align:middle" title="🎵" alt="🎵" /> 药方一：检查并修正运行时的 LD_LIBRARY_PATH（最有可能的罪魁祸首！）</p>
<ul>
<li>
<p dir="auto">问题所在：Colt 编译时使用的是 -DROCM_PATH=/opt/rocm-7.2.3。但是他运行时的命令行里写的却是 LD_LIBRARY_PATH=/opt/rocm/lib:$LD_LIBRARY_PATH。</p>
</li>
<li>
<p dir="auto">根因：如果他系统里的 /opt/rocm 软链接指向的是旧版本（比如 ROCm 6.x 或其他版本），那么程序在运行时就会加载错误的 <a href="http://libamdhip64.so" rel="nofollow ugc">libamdhip64.so</a>，导致 ABI 不兼容，进而在 prefill 阶段发生核心转储崩溃！</p>
</li>
<li>
<p dir="auto">解决方案：让他把运行时命令中的 /opt/rocm/lib 明确修改为与编译一致的绝对路径：</p>
<p dir="auto">LD_LIBRARY_PATH=/opt/rocm-7.2.3/lib:$LD_LIBRARY_PATH</p>
</li>
</ul>
<p dir="auto"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3b5.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--musical_note" style="height:23px;width:auto;vertical-align:middle" title="🎵" alt="🎵" /> 药方二：去掉不兼容的英伟达等效编译参数 -DDFLASH27B_HIP_SM80_EQUIV=ON</p>
<ul>
<li>问题所在：他在 CMake 命令中显式开启了 -DDFLASH27B_HIP_SM80_EQUIV=ON。</li>
<li>根因：这个参数是强行把英伟达的 SM80（Ampere）架构指令转换映射到 AMD 架构。在 7900 XTX (Navi 31 / gfx1100) 的 ROCm 7.x 原生环境下，开启此转换极易生成不兼容的显卡底层硬件指令，导致 prefill 崩溃。</li>
<li>解决方案：重新编译时，直接删掉 这个参数，走纯原生的 HIP 编译。</li>
</ul>
<p dir="auto"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3b5.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--musical_note" style="height:23px;width:auto;vertical-align:middle" title="🎵" alt="🎵" /> 药方三：强力建议开启 -DDFLASH27B_FA_ALL_QUANTS=ON 进行干净的重编</p>
<ul>
<li>
<p dir="auto">问题所在：如果他没有显式开启这个参数（默认是 OFF），DFlash 在面对 Q4_K_M 这种量化格式的 KV Cache 时会匹配不到对应的 VEC dispatch 模板，导致闪退或崩溃。</p>
</li>
<li>
<p dir="auto">解决方案：让他清理编译缓存（这步极度重要，ROCm 编译必须 --clean-first），并用下面的命令重新编译：</p>
<h1>1. 彻底清理旧编译缓存</h1>
<p dir="auto">rm -rf server/build</p>
<h1>2. 干净地进行全量化重新编译</h1>
<p dir="auto">cmake -B server/build -S server <br />
-DCMAKE_BUILD_TYPE=Release <br />
-DDFLASH27B_GPU_BACKEND=hip <br />
-DCMAKE_HIP_ARCHITECTURES=gfx1100 <br />
-DROCM_PATH=/opt/rocm-7.2.3 <br />
-DDFLASH27B_FA_ALL_QUANTS=ON <br />
-DCMAKE_C_STANDARD=11 <br />
-DCMAKE_CXX_STANDARD=17 <br />
-DGGML_CCACHE=OFF</p>
<p dir="auto">cmake --build server/build --target test_dflash --clean-first -j$(nproc)</p>
</li>
</ul>
<p dir="auto"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3b5.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--musical_note" style="height:23px;width:auto;vertical-align:middle" title="🎵" alt="🎵" /> 额外避坑提醒：<br />
运行 test_dflash 时，他的 --fa-window 0 可能会因为参数解析问题被丢弃。建议他把命令行参数改写成带等号的 --fa-window=0，或者干脆在运行前加一句：<br />
export DFLASH27B_FA_WINDOW=0</p>
]]></description><link>https://lcz.me/post/6522</link><guid isPermaLink="true">https://lcz.me/post/6522</guid><dc:creator><![CDATA[abaalei]]></dc:creator><pubDate>Fri, 12 Jun 2026 14:33:42 GMT</pubDate></item><item><title><![CDATA[Reply to 🔥 Lucebox DFlash 在 7900 XTX 上跑 Qwen3.6-27B — 完整复现与实测报告 on Fri, 12 Jun 2026 06:10:22 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/chia-an-yang" aria-label="Profile: CHIA-AN-YANG">@<bdi>CHIA-AN-YANG</bdi></a> 与你情况相同<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f91d.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--handshake" style="height:23px;width:auto;vertical-align:middle" title=":handshake:" alt="🤝" /> 暂时无解，睡一觉明天再说。</p>
]]></description><link>https://lcz.me/post/6451</link><guid isPermaLink="true">https://lcz.me/post/6451</guid><dc:creator><![CDATA[Colt]]></dc:creator><pubDate>Fri, 12 Jun 2026 06:10:22 GMT</pubDate></item><item><title><![CDATA[Reply to 🔥 Lucebox DFlash 在 7900 XTX 上跑 Qwen3.6-27B — 完整复现与实测报告 on Fri, 12 Jun 2026 04:16:03 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/abaalei" aria-label="Profile: abaalei">@<bdi>abaalei</bdi></a> 我這邊是單卡 7900 XTX，現在已經照你說的排查：</p>
<p dir="auto">啟動參數：</p>
<ul>
<li>--fa-window 0</li>
<li>--max-ctx 16384</li>
<li>--cache-type-k q8_0</li>
<li>--cache-type-v q8_0</li>
<li>draft: dflash-draft-3.6-q8_0.gguf</li>
<li>Hermes 預設 max_tokens = 2048</li>
</ul>
<p dir="auto">實際啟動：<br />
/home/jaran/src/lucebox-hub/server/build-hip-7900xtx/test_dflash <br />
/home/jaran/models/qwen36std/Qwen3.6-27B-Q4_K_M.gguf <br />
/home/jaran/models/draft/dflash-draft-3.6-q8_0.gguf <br />
--daemon <br />
--max-ctx=16384 <br />
--fast-rollback <br />
--ddtree <br />
--ddtree-budget=8</p>
<p dir="auto">補充：</p>
<ul>
<li>target loaded: layers [0,64)，不是 65 層</li>
<li>GPU 是 7900 XTX 24GB</li>
<li>fa_window=0 已確認生效</li>
<li>q8_0/q8_0 已確認生效</li>
</ul>
<p dir="auto">Hermes 打進來後實際請求：</p>
<ul>
<li>prompt=5319</li>
<li>n_gen=2048</li>
</ul>
<p dir="auto">結果：</p>
<ul>
<li>直接在 do_prefill() OOM</li>
<li>還沒出第一個 token 就掛</li>
</ul>
<p dir="auto">log 關鍵行：</p>
<ul>
<li>[server] req=1 prompt=5319 n_gen=2048 attempt=1</li>
<li>ROCm error: out of memory</li>
<li>#11 dflash::common::Qwen35Backend::do_prefill(...)</li>
</ul>
<p dir="auto">如果你要更短版，也可以只貼這段：</p>
<p dir="auto">我照你說的改成：<br />
--fa-window 0<br />
--max-ctx 16384<br />
--cache-type-k q8_0<br />
--cache-type-v q8_0<br />
draft q8_0<br />
Hermes max_tokens 2048</p>
<p dir="auto">主模型是 64 層，log 顯示 layers [0,64)。<br />
但 Hermes 第一筆請求 prompt=5319 / n_gen=2048 就在 do_prefill() OOM，第一個 token 都沒出來。</p>
<p dir="auto">這樣你看還要再查哪個點？<br />
折騰了兩天 出動 codex 跟cc都搞不定 ....心累 再拜託大神了<br />
或是能提供64K上下文hermes能用速度又不錯的的啟動腳本給我 感謝</p>
]]></description><link>https://lcz.me/post/6437</link><guid isPermaLink="true">https://lcz.me/post/6437</guid><dc:creator><![CDATA[CHIA AN YANG]]></dc:creator><pubDate>Fri, 12 Jun 2026 04:16:03 GMT</pubDate></item><item><title><![CDATA[Reply to 🔥 Lucebox DFlash 在 7900 XTX 上跑 Qwen3.6-27B — 完整复现与实测报告 on Fri, 12 Jun 2026 03:33:05 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/abaalei" aria-label="Profile: abaalei">@<bdi>abaalei</bdi></a> 谢谢你持续关注我的问题，一直在认真抄作业。</p>
<p dir="auto">我今天的进展是终于能跑通 <a href="http://bench.py" rel="nofollow ugc">bench.py</a> 了，之前都是2个failed。 解决方法是加一个--max-ctx 16384，而且速度在 45-69 之间。</p>
<p dir="auto">但运行server还是不行。可能是版本问题，现在git clone下来的lucebox 已经没有server.py脚本了，而是编译的时候来一个target dflash_server。我尝试在64K上下文（配合hermes）下各种参数组合，最多聊到第二句就爆显存了，暂时无解，只能先用回llama.cpp。</p>
]]></description><link>https://lcz.me/post/6435</link><guid isPermaLink="true">https://lcz.me/post/6435</guid><dc:creator><![CDATA[Colt]]></dc:creator><pubDate>Fri, 12 Jun 2026 03:33:05 GMT</pubDate></item><item><title><![CDATA[Reply to 🔥 Lucebox DFlash 在 7900 XTX 上跑 Qwen3.6-27B — 完整复现与实测报告 on Fri, 12 Jun 2026 01:08:12 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/colt" aria-label="Profile: Colt">@<bdi>Colt</bdi></a> 你看看我另外的这个贴 <a href="https://lcz.me/topic/501/lucebox-dflash-huihui-7900-xtx-%E4%B8%8A%E7%9C%9F-%E6%97%A0%E5%AE%A1%E6%9F%A5-%E6%9E%81%E9%80%9F%E6%8E%A8%E7%90%86%E5%AE%8C%E5%85%A8%E6%8A%98%E8%85%BE%E7%BA%AA%E5%AE%9E/29">https://lcz.me/topic/501/lucebox-dflash-huihui-7900-xtx-上真-无审查-极速推理完全折腾纪实/29</a></p>
<p dir="auto">我昨晚又调了一下参数，下面是agent给你的总结</p>
<p dir="auto">分享一下针对单卡 7900 XTX 跑 Qwen3.6-27B（DFlash 投机推理）的最新极限调优成果！昨晚经过反复压榨，成功把生成速度推上了新高峰：</p>
<h3><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f4ca.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--bar_chart" style="height:23px;width:auto;vertical-align:middle" title="📊" alt="📊" /> 7900 XTX 单卡 DFlash 实测成绩：</h3>
<ul>
<li><strong>平均生成速度 (Decode MEAN)</strong>：<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f680.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--rocket" style="height:23px;width:auto;vertical-align:middle" title="🚀" alt="🚀" /> <strong>84.47 tok/s</strong>（在 HumanEval 10-prompt 串行高压测试下跑出，单题峰值突破 108.05 tok/s）</li>
<li><strong>平均投机接受长度 (AL)</strong>：<strong>6.29</strong>（接受率约 40.8%）</li>
</ul>
<h3><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2699.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--gear" style="height:23px;width:auto;vertical-align:middle" title="⚙" alt="⚙" />️ 终极黄金启动参数：</h3>
<p dir="auto">bash<br />
python3 scripts/server.py <br />
--target '/mnt/models/Qwen3.6/Huihui-Qwen3.6-27B-abliterated.Q4_K_M.gguf' <br />
--draft models/dflash-draft-3.6-q8_0.gguf <br />
--budget 8 <br />
--max-ctx 32768 <br />
--fa-window 0 <br />
--cache-type-k q8_0 <br />
--cache-type-v q8_0 <br />
--no-mmap <br />
--tensor-split 0 <br />
--tokenizer Qwen/Qwen3.6-27B</p>
<h3><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f4a1.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--bulb" style="height:23px;width:auto;vertical-align:middle" title="💡" alt="💡" /> 核心调优心得（无痛白嫖 4% 速度的秘密）：</h3>
<ol>
<li><strong>压榨 KV Cache 带宽（关键！）</strong>：显式加上 <code>--cache-type-k q8_0</code> 和 <code>--cache-type-v q8_0</code> 后，虽然在 GPU 内部多了一步反量化计算，但由于量化让 KV 缓存的数据量直接减半，极大地缓解了 RDNA3 架构在投机树匹配时的显存带宽压力。实测速度从默认 F16 状态下的 <strong>81.19 tok/s</strong> 直接飙升到了 <strong>84.47 tok/s</strong>！而且在 32K 极限上下文下能省下一半的 KV 显存，极大幅度降低了 OOM 的风险！</li>
<li><strong>配合 <code>--no-mmap</code></strong>：在 Linux 原生 ROCm 驱动下，关闭内存映射可以避免文件 I/O 阻塞首字加载，对于首字延迟（Prefill）有可见的加载优化。</li>
<li><strong>配合 <code>--tensor-split 0</code></strong>：强制绑定单卡槽位算子，防止并发时发生莫名其妙的 CPU 回退（Fallback）。</li>
</ol>
]]></description><link>https://lcz.me/post/6406</link><guid isPermaLink="true">https://lcz.me/post/6406</guid><dc:creator><![CDATA[abaalei]]></dc:creator><pubDate>Fri, 12 Jun 2026 01:08:12 GMT</pubDate></item><item><title><![CDATA[Reply to 🔥 Lucebox DFlash 在 7900 XTX 上跑 Qwen3.6-27B — 完整复现与实测报告 on Thu, 11 Jun 2026 17:45:25 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/abaalei" aria-label="Profile: abaalei">@<bdi>abaalei</bdi></a></p>
<p dir="auto">我是昨天git clone的最新版本，编译的时候不能用<br />
DCMAKE_HIP_ARCHITECTURES=gfx1100<br />
换成<br />
DDFLASH27B_HIP_ARCHITECTURES=gfx1100 编译就ok了。</p>
<p dir="auto">但是我bench速度只有不到50t/s，还不如llama.cpp+Vulkan。还在研究怎么进一步优化。</p>
]]></description><link>https://lcz.me/post/6383</link><guid isPermaLink="true">https://lcz.me/post/6383</guid><dc:creator><![CDATA[Colt]]></dc:creator><pubDate>Thu, 11 Jun 2026 17:45:25 GMT</pubDate></item><item><title><![CDATA[Reply to 🔥 Lucebox DFlash 在 7900 XTX 上跑 Qwen3.6-27B — 完整复现与实测报告 on Thu, 11 Jun 2026 15:40:26 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/cs6" aria-label="Profile: CS6">@<bdi>CS6</bdi></a><br />
感谢大佬的安利！看着大佬的 Ryzen 9 9950X3D + R9700 32G + 3090 24G 豪华 PVE 实验室，我的眼泪直接从嘴角流了出来……（虽然这段是AI打的，但是完全说中了我的真心话，我在买7900xtx之前的这段时间，基本上把从mi50~4080super都意淫了一个遍，最后迫于压力只能选择7900xtx，毕竟目前加卡对我来说还只是玩具，不详版主那么厉害，都能拿来当生产力赚钱了）这套 A+N 双 VM 直通隔离和 gateway 独立调度的架构设计，简直是生产力用户的终极梦幻装！</p>
<blockquote></blockquote>
<p dir="auto">关于 PVE 显卡直通方案，我之前在规划这台算力节点时也深度考虑过（我之前在HP Gen8也有玩过pve，但是目前对我来说不太合适），但结合我目前的硬件现状，最终还是选择了 Ubuntu 物理机直驱 + 进程分流 的软隔离路线。主要出于以下几点折腾痛点：</p>
<blockquote></blockquote>
<ol>
<li>双路 E5 的“单核瓶颈”与 NUMA 跨 Socket 延迟 <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f40c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--snail" style="height:23px;width:auto;vertical-align:middle" title="🐌" alt="🐌" /><br />
我的 CPU 是老旧的双路 E5-2682 v4，这代 Broadwell 核心的单核性能放到今天真的非常弱（主频低、单核 IPC 差）。跑大模型推理时，尤其是 DFlash / llama.cpp 的 Prefill 预填充阶段，对 CPU 单核性能和内存延迟极其敏感。如果走 PVE 虚拟化，在弱鸡单核上再剥离一层虚拟化损耗，再加上双路 NUMA 架构下虚拟机跨物理 CPU 调度的延迟，很容易在 Prefill 阶段被卡死，把 GPU 的高速带宽白白浪费掉。</li>
</ol>
<blockquote></blockquote>
<ol start="2">
<li>X99 主板的 IOMMU 分组玄学 <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f52e.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--crystal_ball" style="height:23px;width:auto;vertical-align:middle" title="🔮" alt="🔮" /><br />
华南这类寨板的 ACS 隔离和 IOMMU 划分往往非常狗血，经常会把 PCIe 插槽和板载 SATA、USB 控制器划分在同一个 Group 里，强行直通可能需要打 pcie_acs_override 内核补丁，稳定性难以保障（我们昨晚刚在华南 X99-6Plus 上翻过车。把 7900 XTX 塞进 5 槽（CPU0通道），系统加载后，板载网卡和 3 槽的 2.5G 独立网卡（RTL8125，插在pciex8插槽）直接物理掉线（PHY 灯全灭）。最后根本跑不通，只能退回折腾了5小时，最终在加 pcie_aspm=off 并写 systemd 脚本开机强行重载 r8169/r8125 驱动才把网卡拉起来。这种寨板在 PCIe 分配和硬件兼容性上全是玄学，玩 PVE 直通随时都会面临 Host 彻底失联的灾难，所以只能物理机直驱加 pm2 分流软隔离了……）。</li>
</ol>
<blockquote></blockquote>
<ol start="3">
<li>物理机层面的“软分流”隔离 <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f6e0.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--hammer_and_wrench" style="height:23px;width:auto;vertical-align:middle" title="🛠" alt="🛠" />️<br />
好在双路 X99 最大的优势是 PCIe lanes（通道数）多到用不完。目前我的 7900 XTX 和 3080 Ti 都跑在全速槽上。在软件层面：
<ul>
<li>大模型推理：走 ROCm 后端，ROCm 天然就不认 NVIDIA 显卡，所以大模型推理自动锁死在 7900 XTX 上，吃满 24G 显存。</li>
<li>视频后处理 / 变声 (VoxCPM)：我直接在 pm2 启动脚本里用 CUDA_VISIBLE_DEVICES 将 3080 Ti 隔离出来专门处理。<br />
通过 pm2 进程管理，基本做到了“物理不拆卡，环境不污染，带宽不冲突”，算是压榨这台老 X99 主板剩余价值最省心的路子了。</li>
</ul>
</li>
</ol>
<blockquote></blockquote>
<p dir="auto">顺便同步一下进度，我用 bench_he.py（10 HumanEval）在 DFlash 完整编译（FA_ALL_QUANTS=ON + --fa-window 0）下，跑 Huihui 真无审查 Q4_K_M 模型，7900 XTX 实测已经飚到了 81.38 tok/s！（在我的另一个贴上发了，虽然上下文只有32K）物理通道和驱动潜力几乎被榨干了。</p>
<blockquote></blockquote>
<p dir="auto">大佬的那块 AI PRO R9700 32GB 实在太香了，32G 显存跑 vLLM 的 KV cache 简直可以横着走，未来如果有什么好玩的工作流或测试数据，求大佬多发帖分享，让我也饱饱眼福！</p>
]]></description><link>https://lcz.me/post/6354</link><guid isPermaLink="true">https://lcz.me/post/6354</guid><dc:creator><![CDATA[abaalei]]></dc:creator><pubDate>Thu, 11 Jun 2026 15:40:26 GMT</pubDate></item><item><title><![CDATA[Reply to 🔥 Lucebox DFlash 在 7900 XTX 上跑 Qwen3.6-27B — 完整复现与实测报告 on Thu, 11 Jun 2026 15:30:49 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/colt" aria-label="Profile: Colt">@<bdi>Colt</bdi></a> 哈哈，我家的agent也在帮你看问题，然后我滚下来之后就看到你解决了<br />
然后反正token都耗了，我也扔出来给你、或者其他人参考下吧</p>
<p dir="auto">这位老哥的 Segmentation fault 崩溃非常经典，在预填充阶段（[prefill] token-seg ubatch=32）直接炸在 <a href="http://libamdhip64.so" rel="nofollow ugc">libamdhip64.so</a> 里面，说明他在编译或者环境加载上中了这四个暗箭：</p>
<p dir="auto"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3af.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--dart" style="height:23px;width:auto;vertical-align:middle" title="🎯" alt="🎯" /> 致命诊断与排坑指南</p>
<ol>
<li>动态链接库“张冠李戴” <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/26a0.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--warning" style="height:23px;width:auto;vertical-align:middle" title="⚠" alt="⚠" />️ (最可能导致 segfault 的根源)</li>
</ol>
<ul>
<li>
<p dir="auto">病因：看他的命令里写的是 LD_LIBRARY_PATH=/opt/rocm/lib:$LD_LIBRARY_PATH。但是他的编译参数指定的是 -DROCM_PATH=/opt/rocm-7.2.3！</p>
</li>
<li>
<p dir="auto">危害：如果系统里的 /opt/rocm 是一个软链接，但其实指向了另外一个版本的旧 ROCm (比如 6.x 或 7.1)，那么运行 test_dflash 时加载的动态库与编译时的头文件就会发生 ABI 冲突。只要跑 GPU 算子，必报 general protection fault 闪退！</p>
</li>
<li>
<p dir="auto">解药：运行时必须显式指定与编译路径完全一致的 7.2.3 库文件目录：</p>
<p dir="auto">export LD_LIBRARY_PATH=/opt/rocm-7.2.3/lib:$LD_LIBRARY_PATH</p>
</li>
</ul>
<ol start="2">
<li>去掉“毒药参数” -DDFLASH27B_HIP_SM80_EQUIV=ON 🧪</li>
</ol>
<ul>
<li>病因：这个参数是用于把 NVIDIA Ampere (SM80) 的指令在 AMD 硬件上做等效处理的。但在我们 7900 XTX (Navi 31 / gfx1100) 这种消费级显卡上，ROCm 7.2 自身的 HIP 编译器其实已经能非常优秀地进行原生编译了。盲目开启 SM80 转换，反而容易在 GPU prefill 跑算子时产生不兼容的硬件指令。</li>
<li>解药：在 7900 XTX 纯 A 卡环境的编译中，直接把这个参数去掉！</li>
</ul>
<ol start="3">
<li>显式开启全量化，且必须彻底清除缓存 🧼 (我们踩出来的超级大坑)</li>
</ol>
<ul>
<li>病因：他用的是 Q4_K_M 这种 K-quant 模型。如果 DFlash 编译时缺省没有开启所有的 KV-quant 模板，计算注意力时就会找不到匹配，要么直接 abort，要么因为 fallback 到在 HIP 上极不稳定的 TILE kernel 导致 segfault！</li>
<li>解药：重新 cmake 时显式指定 -DDFLASH27B_FA_ALL_QUANTS=ON。而且最重要的一点：必须使用 --clean-first！如果直接 build，cmake 不会重编 HIP 核心，老代码还是会原地爆炸。
<ul>
<li>
<p dir="auto">正确的编译步骤：</p>
<p dir="auto">cmake -B server/build -S server <br />
-DCMAKE_BUILD_TYPE=Release <br />
-DDFLASH27B_GPU_BACKEND=hip <br />
-DCMAKE_HIP_ARCHITECTURES=gfx1100 <br />
-DROCM_PATH=/opt/rocm-7.2.3 <br />
-DDFLASH27B_FA_ALL_QUANTS=ON <br />
-DCMAKE_C_STANDARD=11 <br />
-DCMAKE_CXX_STANDARD=17 <br />
-DGGML_CCACHE=OFF</p>
<h1>彻底清理并重编</h1>
<p dir="auto">cmake --build server/build --target ggml-hip --clean-first -j$(nproc)<br />
cmake --build server/build --target test_dflash -j$(nproc)</p>
</li>
</ul>
</li>
</ul>
<ol start="4">
<li>参数没有喂饱，换用环境变量卡死 <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2699.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--gear" style="height:23px;width:auto;vertical-align:middle" title="⚙" alt="⚙" />️</li>
</ol>
<ul>
<li>
<p dir="auto">病因：看他的日志输出 [cfg] ... fa_window=2048 ...。这说明他在命令行传的 --fa-window 0 根本没有被解析成功！DFlash 还在用 2048 窗口，所以在 prefill 时发生了越界。</p>
</li>
<li>
<p dir="auto">解药：在运行命令前直接用环境变量卡死它，最稳妥：</p>
<p dir="auto">export DFLASH27B_FA_WINDOW=0</p>
<h1>或者把命令最后的参数改成用等号连接：</h1>
<p dir="auto">--fa-window=0</p>
</li>
</ul>
]]></description><link>https://lcz.me/post/6353</link><guid isPermaLink="true">https://lcz.me/post/6353</guid><dc:creator><![CDATA[abaalei]]></dc:creator><pubDate>Thu, 11 Jun 2026 15:30:49 GMT</pubDate></item><item><title><![CDATA[Reply to 🔥 Lucebox DFlash 在 7900 XTX 上跑 Qwen3.6-27B — 完整复现与实测报告 on Thu, 11 Jun 2026 05:32:41 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto">abaalei <a href="/post/6177">说</a>:</p>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/5ccccc" aria-label="Profile: 5ccccc">@<bdi>5ccccc</bdi></a> 45 跟我们的 MTP n=3 成绩（47.3）差不多，正常。DFlash 没跑通可以把报错贴出来帮你看看，常见原因就几个：</p>
<ol>
<li><a href="http://fattn.cu:312" rel="nofollow ugc">fattn.cu:312</a> 崩溃 → 主模型必须是 64层（65层带MTP头的GGUF不兼容），编译时加 -DDFLASH27B_FA_ALL_QUANTS=ON 重建，启动加 --fa-window 0</li>
<li>草稿模型 → 必须用 Lucebox 官方的 Q8 GGUF，Q4 草稿在 RDNA3 上反量化反而拖慢</li>
<li>Budget=8 是甜点，再大验证树填不满 GDDR6 的 wavefront</li>
</ol>
<p dir="auto">我们用 Huihui 无审查版 + FA_ALL_QUANTS=ON 跑到了 81.38 tok/s，比原帖 68.80 还高 18%，AMD 这卡在 DFlash 上确实能打。（我让我家agent回你）</p>
</blockquote>
<p dir="auto">我应该是第一个问题，不过我最近在折腾comfyui等差不多的，我再试试你这个</p>
]]></description><link>https://lcz.me/post/6265</link><guid isPermaLink="true">https://lcz.me/post/6265</guid><dc:creator><![CDATA[5ccccc]]></dc:creator><pubDate>Thu, 11 Jun 2026 05:32:41 GMT</pubDate></item><item><title><![CDATA[Reply to 🔥 Lucebox DFlash 在 7900 XTX 上跑 Qwen3.6-27B — 完整复现与实测报告 on Thu, 11 Jun 2026 05:01:04 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto">Colt <a href="/post/6221">说</a>:</p>
<p dir="auto">cmake -B server/build -S server   -DCMAKE_BUILD_TYPE=Release   -DDFLASH27B_GPU_BACKEND=hip   -DCMAKE_HIP_ARCHITECTURES=gfx1100   -DROCM_PATH=/opt/rocm-7.2.3   -DDFLASH27B_HIP_SM80_EQUIV=ON   -DCMAKE_C_STANDARD=11   -DCMAKE_CXX_STANDARD=17   -DGGML_CCACHE=OFF</p>
</blockquote>
<p dir="auto">还是靠Hermes，它5秒就定位问题，然后搞定了。编译的时候不能用 -DCMAKE_HIP_ARCHITECTURES=gfx1100。<br />
<img src="https://upload.lcz.me/uploads/f00053b8-7923-47b5-ae64-14ac76e6ed92.jpeg" alt="214ecfe4-ca1f-41c9-ac63-37625a875562-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/6262</link><guid isPermaLink="true">https://lcz.me/post/6262</guid><dc:creator><![CDATA[Colt]]></dc:creator><pubDate>Thu, 11 Jun 2026 05:01:04 GMT</pubDate></item><item><title><![CDATA[Reply to 🔥 Lucebox DFlash 在 7900 XTX 上跑 Qwen3.6-27B — 完整复现与实测报告 on Thu, 11 Jun 2026 03:57:49 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/abaalei" aria-label="Profile: abaalei">@<bdi>abaalei</bdi></a>  大佬要不也嘗試下虛擬化方案？ 我是走 PVE 顯卡直通，這樣可以同時 A+N 雙開任務</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/c035175e-b363-47eb-9a2f-fb3d63dfeee1.jpeg" alt="98b9657e-dfde-418a-ba39-2c273d324f4c-image.jpeg" class=" img-fluid img-markdown" /></p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>項目</th>
<th>品牌</th>
<th>規格</th>
</tr>
</thead>
<tbody>
<tr>
<td>主機板</td>
<td>ASUS</td>
<td>ProArt B850-CREATOR WIFI NEO</td>
</tr>
<tr>
<td>CPU</td>
<td>AMD</td>
<td>Ryzen 9 9950X3D，16C / 32T</td>
</tr>
<tr>
<td>CPU FAN</td>
<td>DeepCool Digital</td>
<td>ASSASSIN IV VC VISION</td>
</tr>
<tr>
<td>FAN</td>
<td>Noctua</td>
<td>12" PWA、14" FN</td>
</tr>
<tr>
<td>記憶體</td>
<td>Kingston</td>
<td>DDR5 64GB，32GB x 2</td>
</tr>
<tr>
<td>顯示卡</td>
<td>AMD</td>
<td>Radeon AI PRO R9700</td>
</tr>
<tr>
<td>顯示卡</td>
<td>NVIDIA</td>
<td>RTX 3090</td>
</tr>
<tr>
<td>有線網路</td>
<td>Realtek</td>
<td>RTL8126 5GbE x 2</td>
</tr>
<tr>
<td>無線網路</td>
<td>Realtek</td>
<td>RTL8922AE Wi-Fi 7 / 802.11be</td>
</tr>
<tr>
<td>系統碟</td>
<td>Crucial / Micron</td>
<td>T500 NVMe SSD，約 2TB</td>
</tr>
<tr>
<td>資料碟</td>
<td>Samsung</td>
<td>980 / PM9A1 類 NVMe SSD，約 477GB</td>
</tr>
<tr>
<td>Windows 系統碟</td>
<td>Predator / Biwin</td>
<td>NVMe SSD，約 1TB，獨立 Windows 11 系統，主要用途：星際公民</td>
</tr>
<tr>
<td>電源</td>
<td>NZXT</td>
<td>1500W</td>
</tr>
<tr>
<td>Case</td>
<td>Cooler Master</td>
<td>QUBE 540</td>
</tr>
</tbody>
</table>
<p dir="auto">這是當前 PVE 實驗室佈局的簡短操作快照。詳細設定說明請參閱 <code>Machines.md</code>、<code>Runbook.md</code> 及 <code>worklog/</code>。</p>
<h2>主機 (Host)</h2>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>項目</th>
<th>數值</th>
</tr>
</thead>
<tbody>
<tr>
<td>PVE 主機</td>
<td>IP</td>
</tr>
<tr>
<td>角色</td>
<td>Hypervisor、NFS/共享儲存、子網路由</td>
</tr>
<tr>
<td>硬體</td>
<td>AMD 9950X3D, 64 GB RAM, 2 TB NVMe</td>
</tr>
<tr>
<td>已安裝 GPU</td>
<td>AMD Radeon AI PRO R9700 32GB, ZOTAC RTX 3090 24GB</td>
</tr>
</tbody>
</table>
<h2>GPU 資源映射 (GPU Resource Mappings)</h2>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>映射名稱</th>
<th>GPU</th>
<th>PCI 路徑</th>
<th style="text-align:right">IOMMU 分組</th>
<th>規則</th>
</tr>
</thead>
<tbody>
<tr>
<td><code>gpu-r9700</code></td>
<td>AMD Radeon AI PRO R9700 32GB</td>
<td><code>0000:03:00</code></td>
<td style="text-align:right">16</td>
<td>指派給 VM100 或 VM103，不可同時指派</td>
</tr>
<tr>
<td><code>gpu-rtx3090</code></td>
<td>ZOTAC NVIDIA GeForce RTX 3090 24GB</td>
<td><code>0000:05:00</code></td>
<td style="text-align:right">19</td>
<td>指派給 VM104 或 VM105，不可同時指派</td>
</tr>
</tbody>
</table>
<h2>虛擬機群組 (VM Groups)</h2>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>群組</th>
<th style="text-align:right">VM ID</th>
<th>GPU 映射</th>
<th>用途</th>
<th>備註</th>
</tr>
</thead>
<tbody>
<tr>
<td>AMD / ROCm</td>
<td style="text-align:right">100</td>
<td><code>gpu-r9700</code></td>
<td>主 R9700 實驗 VM</td>
<td>ROCm, vLLM, llama.cpp, TRELLIS.2 ROCm</td>
</tr>
<tr>
<td>AMD / ROCm</td>
<td style="text-align:right">103</td>
<td>預設 <code>gpu-r9700</code></td>
<td>實驗協同 / 備用 GPU VM</td>
<td>與 VM100 共用 R9700；可切換至 RTX 3090 進行測試</td>
</tr>
<tr>
<td>NVIDIA / CUDA</td>
<td style="text-align:right">104</td>
<td><code>gpu-rtx3090</code></td>
<td>CachyOS 圖形介面與 NVIDIA 桌面測試</td>
<td>與 VM105 共用 RTX 3090</td>
</tr>
<tr>
<td>NVIDIA / CUDA</td>
<td style="text-align:right">105</td>
<td><code>gpu-rtx3090</code></td>
<td>CUDA LLM 與 ComfyUI/TRELLIS.2 實驗</td>
<td>主 RTX 3090 基準測試 VM</td>
</tr>
<tr>
<td>服務</td>
<td style="text-align:right">101</td>
<td>無</td>
<td>閘道服務</td>
<td>LiteLLM, 儀表板, 排程器, 常駐服務</td>
</tr>
</tbody>
</table>
<h2>當前實驗路線 (Current Experiment Lines)</h2>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:right">VM ID</th>
<th>當前路線</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:right">100</td>
<td>R9700 ROCm 推理, vLLM, llama.cpp, TRELLIS.2 ROCm</td>
</tr>
<tr>
<td style="text-align:right">103</td>
<td>協同開發沙盒；可重複使用 R9700 或臨時切換至 RTX 3090</td>
</tr>
<tr>
<td style="text-align:right">104</td>
<td>NVIDIA 圖形介面, CachyOS, vkmark, 桌面/GPU 驅動驗證</td>
</tr>
<tr>
<td style="text-align:right">105</td>
<td>RTX 3090 CUDA, LLM 基準測試, ComfyUI, TRELLIS.2, Gradio</td>
</tr>
</tbody>
</table>
<h2>排程規則 (Scheduling Rules)</h2>
<ul>
<li>VM100 和 VM103 不能同時使用 <code>gpu-r9700</code>。</li>
<li>VM104 和 VM105 不能同時使用 <code>gpu-rtx3090</code>。</li>
<li>VM103 可以在 <code>gpu-r9700</code> 和 <code>gpu-rtx3090</code> 之間切換，但不得與目前正在使用該映射的虛擬機發生衝突。</li>
<li>閘道 VM101 應保持獨立，不參與 GPU 實驗。</li>
</ul>
]]></description><link>https://lcz.me/post/6237</link><guid isPermaLink="true">https://lcz.me/post/6237</guid><dc:creator><![CDATA[CS6]]></dc:creator><pubDate>Thu, 11 Jun 2026 03:57:49 GMT</pubDate></item><item><title><![CDATA[Reply to 🔥 Lucebox DFlash 在 7900 XTX 上跑 Qwen3.6-27B — 完整复现与实测报告 on Thu, 11 Jun 2026 03:01:26 GMT]]></title><description><![CDATA[<p dir="auto">同为7900XTX，想抄作业，ubuntu26.04，之前已安装了ROCm 7.2.3，并编译llama.cpp 正常运行。这次在编译和运行test_dflash 遭遇不少挫折，最终通过如下命令编译成功：</p>
<pre><code>cmake -B server/build -S server   -DCMAKE_BUILD_TYPE=Release   -DDFLASH27B_GPU_BACKEND=hip   -DCMAKE_HIP_ARCHITECTURES=gfx1100   -DROCM_PATH=/opt/rocm-7.2.3   -DDFLASH27B_HIP_SM80_EQUIV=ON   -DCMAKE_C_STANDARD=11   -DCMAKE_CXX_STANDARD=17   -DGGML_CCACHE=OFF
cmake --build server/build --target test_dflash -j$(nproc)
</code></pre>
<p dir="auto">但是跑bench全部失败，单独运行test_dflash，错误信息如下：</p>
<pre><code>LD_LIBRARY_PATH=/opt/rocm/lib:$LD_LIBRARY_PATH HSA_OVERRIDE_GFX_VERSION=11.0.0 DFLASH27B_DRAFT_SWA=2048 DFLASH27B_PREFILL_UBATCH=32 /home/user/lucebox-hub/server/build/test_dflash /data/models/Qwen/Qwen3.6-27B-Q4_K_M.gguf /data/models/Lucebox/dflash-draft-3.6-q8_0.gguf /tmp/dflash_bench/he_prompt_Qwen_Qwen3.5-27B_00.bin 128 /tmp/out_test.bin --fa-window 0 --ddtree --ddtree-budget=8
[cfg] seq_verify=0 fast_rollback=1 ddtree=1 budget=8 temp=1.00 chain_seed=1 fa_window=2048 draft_swa=2048 draft_ctx_max=4096 draft_feature_mirror=0 peer_access=0 target_gpu=0 draft_gpu=0
ggml_cuda_init: found 1 ROCm devices (Total VRAM: 24560 MiB):
  Device 0: Radeon RX 7900 XTX, gfx1100 (0x1100), VMM: no, Wave Size: 32, VRAM: 24560 MiB
[loader] eos_id=248046 eos_chat_id=-1
[target] target loaded: layers [0,64) output=1, 850 tensors on GPU 14.99 GiB, tok_embd 682 MiB CPU-only (q4_K)
[draft]  loaded
[draft]  SWA layers: 4/5 (window=2048)
[prompt] 125 tokens
[prefill] token-seg ubatch=32
Segmentation fault         (core dumped) LD_LIBRARY_PATH=/opt/rocm/lib:$LD_LIBRARY_PATH HSA_OVERRIDE_GFX_VERSION=11.0.0 DFLASH27B_DRAFT_SWA=2048 DFLASH27B_PREFILL_UBATCH=32 /home/colt/lucebox-hub/server/build/test_dflash /data/models/Qwen/Qwen3.6-27B-Q4_K_M.gguf /data/models/Lucebox/dflash-draft-3.6-q8_0.gguf he_prompt_Qwen_Qwen3.5-27B_00.bin 128 /tmp/out_test.bin --fa-window 0 --ddtree --ddtree-budget=8
</code></pre>
<p dir="auto">dmesg 错误日志</p>
<pre><code>traps: test_dflash[35252] general protection fault ip:755a83ab097f sp:7ffd64484780 error:0 in libamdhip64.so.7.2.70203[2b097f,755a83823000+481000]
</code></pre>
<p dir="auto">问遍AI，不得其解。目前尚无头绪，不确定是否为ROCm的版本导致。我看楼主也是7.2版本，请教楼主是否曾经遇到类似问题。不到万不得已，实在不想折腾退回ROCm 6.3。</p>
]]></description><link>https://lcz.me/post/6221</link><guid isPermaLink="true">https://lcz.me/post/6221</guid><dc:creator><![CDATA[Colt]]></dc:creator><pubDate>Thu, 11 Jun 2026 03:01:26 GMT</pubDate></item><item><title><![CDATA[Reply to 🔥 Lucebox DFlash 在 7900 XTX 上跑 Qwen3.6-27B — 完整复现与实测报告 on Wed, 10 Jun 2026 16:50:54 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kenshin" aria-label="Profile: kenshin">@<bdi>kenshin</bdi></a> 我家agent给你的一点小意见（仅供参考，不确定有没有幻觉哈，我也是菜鸡，只会按遥控器）：<br />
这套配置跑 Qwen3.6 27B 稳定 50 t/s 确实不错，Vulkan 下的调优很有针对性。--cache-type-k/v q8_0 和 --no-mmap 在 Vulkan 后端确实是正优化，放对位置了 <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f44d.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--+1" style="height:23px;width:auto;vertical-align:middle" title="👍" alt="👍" /></p>
<p dir="auto">几个技术建议：</p>
<p dir="auto">1️⃣ --spec-draft-n-max 2 → 3（最直接的白嫖）<br />
我们在 7900 XTX 上实测：</p>
<ul>
<li>n=2: 43.3 t/s</li>
<li>n=3: 47.3 t/s <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3c6.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--trophy" style="height:23px;width:auto;vertical-align:middle" title="🏆" alt="🏆" />（+4 t/s）</li>
<li>n=4: 40.7 t/s（过度投机反降）</li>
</ul>
<p dir="auto">RDNA3 上 n=3 是 MTP 甜点，接受率最高。你换到 n=3 应该能从 50 提到 52-54。</p>
<p dir="auto">2️⃣ 双卡确认（如果你有 NVIDIA 卡）<br />
你用的 VK_ICD_FILENAMES 可以隐藏 NVIDIA 卡，但 Vulkan 仍有可能给另一张卡分配显存（~6.9GB），跨卡 PCIe 带宽瓶颈会拖慢。建议 rocm-smi 看一眼确认。如果是双卡机器，ROCm 后端能天然隔离 NVIDIA，是更干净的方案。</p>
<p dir="auto">3️⃣ 掉速分析（50→40+）<br />
大概率不是参数问题，排查方向：</p>
<ul>
<li>KV cache 积累：长时间对话后上下文涨了，MTP 窗口被挤占</li>
<li>热降频：跑久了 RDNA3 热点温度一超就降频，rocm-smi 看温度</li>
<li>并发排队：cont-batching 下多请求排队，单请求吞吐必然下降</li>
</ul>
<p dir="auto">4️⃣ 进阶路线</p>
<ul>
<li>--no-mmap + --mlock 在 Vulkan 下没问题，但以后切 ROCm 时必须去掉，否则 OOM</li>
<li>如果追求更高速度，可以试 DFlash 路线（需 64 层模型，不能用你现在这个带 MTP 头的 GGUF）。我们 7900 XTX + ROCm + DFlash 跑到 81.38 t/s，比 MTP 快 60%+</li>
</ul>
<p dir="auto">期待你的调试结果！</p>
]]></description><link>https://lcz.me/post/6181</link><guid isPermaLink="true">https://lcz.me/post/6181</guid><dc:creator><![CDATA[abaalei]]></dc:creator><pubDate>Wed, 10 Jun 2026 16:50:54 GMT</pubDate></item><item><title><![CDATA[Reply to 🔥 Lucebox DFlash 在 7900 XTX 上跑 Qwen3.6-27B — 完整复现与实测报告 on Wed, 10 Jun 2026 16:49:17 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/williamlouis" aria-label="Profile: williamlouis">@<bdi>williamlouis</bdi></a><br />
46 tok/s 不错，几个思路？：</p>
<ol>
<li>FA_ALL_QUANTS=ON 重新编译：我们开了这个之后 bench_he.py 从 68.80 直接升到 81.38 tok/s（+18%），因为 VEC kernel 能匹配到正确的量化模板了。</li>
<li>--ddtree-budget 8：RDNA3 上 budget 太大验证树反而拖慢，8 是甜点</li>
<li>API 模式 26 tok/s 偏低，检查有没有设 --tokenizer Qwen/Qwen3.6-27B，缺这个会导致 token 计数偏差</li>
<li>中文对话接受率 15% 正常，代码场景会更高</li>
</ol>
<p dir="auto">启动命令参考（我们已稳跑）：</p>
<p dir="auto">cd /home/peter/lucebox-hub/dflash<br />
python3 scripts/server.py <br />
--target Huihui-Qwen3.6-27B-abliterated.Q4_K_M.gguf <br />
--draft models/dflash-draft-3.6-q8_0.gguf <br />
--budget 8 --fa-window 0 <br />
--tokenizer Qwen/Qwen3.6-27B <br />
--host 0.0.0.0 --port 11435</p>
]]></description><link>https://lcz.me/post/6179</link><guid isPermaLink="true">https://lcz.me/post/6179</guid><dc:creator><![CDATA[abaalei]]></dc:creator><pubDate>Wed, 10 Jun 2026 16:49:17 GMT</pubDate></item><item><title><![CDATA[Reply to 🔥 Lucebox DFlash 在 7900 XTX 上跑 Qwen3.6-27B — 完整复现与实测报告 on Wed, 10 Jun 2026 16:48:24 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/chia-an-yang" aria-label="Profile: CHIA-AN-YANG">@<bdi>CHIA-AN-YANG</bdi></a> 炸显存排查几个点：</p>
<ol>
<li>启动时有没有加 --fa-window 0？不加的话长上下文 KV cache 预填会炸</li>
<li>主模型确认是 64层 版本吗？65层（带MTP头）的GGUF在DFlash下不兼容</li>
<li>--max-ctx 设了多少？建议先设 16384 起步</li>
<li>Hermes 的 max_tokens 别设太大，建议先 2048</li>
</ol>
<p dir="auto">把启动命令和模型路径贴出来帮你看看。</p>
]]></description><link>https://lcz.me/post/6178</link><guid isPermaLink="true">https://lcz.me/post/6178</guid><dc:creator><![CDATA[abaalei]]></dc:creator><pubDate>Wed, 10 Jun 2026 16:48:24 GMT</pubDate></item><item><title><![CDATA[Reply to 🔥 Lucebox DFlash 在 7900 XTX 上跑 Qwen3.6-27B — 完整复现与实测报告 on Wed, 10 Jun 2026 16:47:06 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/5ccccc" aria-label="Profile: 5ccccc">@<bdi>5ccccc</bdi></a> 45 跟我们的 MTP n=3 成绩（47.3）差不多，正常。DFlash 没跑通可以把报错贴出来帮你看看，常见原因就几个：</p>
<ol>
<li><a href="http://fattn.cu:312" rel="nofollow ugc">fattn.cu:312</a> 崩溃 → 主模型必须是 64层（65层带MTP头的GGUF不兼容），编译时加 -DDFLASH27B_FA_ALL_QUANTS=ON 重建，启动加 --fa-window 0</li>
<li>草稿模型 → 必须用 Lucebox 官方的 Q8 GGUF，Q4 草稿在 RDNA3 上反量化反而拖慢</li>
<li>Budget=8 是甜点，再大验证树填不满 GDDR6 的 wavefront</li>
</ol>
<p dir="auto">我们用 Huihui 无审查版 + FA_ALL_QUANTS=ON 跑到了 81.38 tok/s，比原帖 68.80 还高 18%，AMD 这卡在 DFlash 上确实能打。（我让我家agent回你）</p>
]]></description><link>https://lcz.me/post/6177</link><guid isPermaLink="true">https://lcz.me/post/6177</guid><dc:creator><![CDATA[abaalei]]></dc:creator><pubDate>Wed, 10 Jun 2026 16:47:06 GMT</pubDate></item><item><title><![CDATA[Reply to 🔥 Lucebox DFlash 在 7900 XTX 上跑 Qwen3.6-27B — 完整复现与实测报告 on Wed, 10 Jun 2026 16:46:23 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/laobenxiong" aria-label="Profile: laobenxiong">@<bdi>laobenxiong</bdi></a> 感谢捉虫！刚特意上机确认了一下我们实际编译的状态，供参考：</p>
<p dir="auto">我用的 commit 73678fa，实际情况跟你说的不完全一致——取决于版本差异：</p>
<ol>
<li>dflash/ vs server/：我们两个目录都有，但 server/ 下没有 CMakeLists.txt，实际编译仍在 dflash/ 下正常进行。cd server 可能需要更新的 commit 才是强制的。</li>
<li>USE_HIP=ON 与 GPU_BACKEND=hip：我们 CMakeCache 里两个 DFLASH27B_USE_HIP:BOOL=ON 和 DFLASH27B_GPU_BACKEND=hip 并存，都能过。旧 flag 没有"不存在了"。</li>
<li>CMAKE_HIP_ARCHITECTURES vs DFLASH27B_HIP_ARCHITECTURES：我们用的前者，正常编译。</li>
<li>ROCM_PATH：-DROCM_PATH=/opt/rocm-7.2.0 也能用，不一定要环境变量。</li>
<li>FA_ALL_QUANTS=ON <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> 已开。</li>
<li>prefix_cache.cpp <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> 确实不需要手改了。</li>
</ol>
<p dir="auto">我们实测 FA_ALL_QUANTS=ON + Huihui Q4_K_M 能跑到 81.38 tok/s（bench_he.py），高于原帖的 68.80。所以整体思路没问题，只是一些 cmake flag 的改法在不同版本间不是唯一的。感谢补充！<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f64f.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--pray" style="height:23px;width:auto;vertical-align:middle" title="🙏" alt="🙏" /></p>
]]></description><link>https://lcz.me/post/6176</link><guid isPermaLink="true">https://lcz.me/post/6176</guid><dc:creator><![CDATA[abaalei]]></dc:creator><pubDate>Wed, 10 Jun 2026 16:46:23 GMT</pubDate></item><item><title><![CDATA[Reply to 🔥 Lucebox DFlash 在 7900 XTX 上跑 Qwen3.6-27B — 完整复现与实测报告 on Wed, 10 Jun 2026 15:40:08 GMT]]></title><description><![CDATA[<p dir="auto">分析下显存的情况哈。<br />
我的：<br />
最终汇总</p>
<pre><code>DFlash + Huihui Q4_K_M 已就绪，端口 11435


目录隔离:
  /opt/lucebox-dflash/          ← DFlash 全套（编译+模型）
  /opt/llama.cpp/                ← 你原有的 llama.cpp（不动）

速度:
  test_dflash 原生:  ~46 tok/s   (vs 你原有 25 tok/s)
  API 模式:          ~26 tok/s

启动命令:
  cd /opt/lucebox-dflash/server
  HSA_OVERRIDE_GFX_VERSION=11.0.0 ./build/dflash_server \
    models/Huihui-Qwen3.6-27B-abliterated.Q4_K_M.gguf \
    --draft models/draft/dflash-draft-3.6-q8_0.gguf \
    --ddtree --ddtree-budget 8 \
    --fa-window 0 \
    --host 0.0.0.0 --port 11435

API 端点: http://127.0.0.1:11435/v1/chat/completions (OpenAI 兼容)

注意事项:
  - 每次重启系统后需重新 sudo tee DPM high
  - --ddtree-budget 必须用空格不能用等号
  - 草稿模型接受率对中文对话偏低(~15%)，代码场景会更高


两套系统零关联，互不影响。如果 Huihui 的去审查特性不是你需要的，随时可以把 --target 换成你原有的原版 Q4_K_M 模型路径来对比。
</code></pre>
<p dir="auto">继续测试中。目前没什么问题。测作业中。<br />
我的对话你参考下。这就接入到局域网的Hermes了。<br />
──────────────────────────────────────<br />
● 这个我需要接入到Mac的Hermes 在测是吧？<br />
────────────────────────────────────────</p>
<p dir="auto">╭─ <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2695.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--staff_of_aesculapius" style="height:23px;width:auto;vertical-align:middle" title="⚕" alt="⚕" /> Hermes ───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╮<br />
对，刚才的 curl 测试只是在 Linux 本机验证功能。要在 Mac 的 Hermes Agent 里实际对话，需要把 DFlash 配成 Hermes 的一个 provider。</p>
<pre><code>你的 Linux 机（7900 XTX）和 Mac 在同一个局域网吗？如果可以互相 ping 通，配置就很简单——在 Hermes 里加一个自定义 provider，指向 Linux 机的 IP + 端口 11435。

如果可以的话，我先帮你确认一下 Linux 机的局域网 IP，然后告诉你 Mac 端 Hermes 怎么配。
</code></pre>
<p dir="auto">╰──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯</p>
<p dir="auto">────────────────────────────────────────<br />
● 好的。给我详细配置 我发给 Mac的 Hermes<br />
────────────────────────────────────────</p>
<p dir="auto">┊ <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f4bb.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--computer" style="height:23px;width:auto;vertical-align:middle" title="💻" alt="💻" /> preparing terminal…<br />
┊ <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f4da.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--books" style="height:23px;width:auto;vertical-align:middle" title="📚" alt="📚" /> preparing skill_view…<br />
┊ <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f4bb.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--computer" style="height:23px;width:auto;vertical-align:middle" title="💻" alt="💻" /> $         ip addr show | grep -E "inet " | grep -v 127.0.0.1 2&gt;&amp;1  0.1s<br />
┊ <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f4da.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--books" style="height:23px;width:auto;vertical-align:middle" title="📚" alt="📚" /> skill     hermes-agent  0.0s</p>
<p dir="auto">╭─ <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2695.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--staff_of_aesculapius" style="height:23px;width:auto;vertical-align:middle" title="⚕" alt="⚕" /> Hermes ───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╮<br />
Linux IP 是 192.168.8.247。先确认端口对外可达，然后给你生成 Mac 端配置。<br />
╰──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯<br />
┊ <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f4bb.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--computer" style="height:23px;width:auto;vertical-align:middle" title="💻" alt="💻" /> preparing terminal…<br />
┊ <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f4bb.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--computer" style="height:23px;width:auto;vertical-align:middle" title="💻" alt="💻" /> $         ss -tlnp | grep 11435 2&gt;&amp;1  0.1s</p>
<p dir="auto">╭─ <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2695.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--staff_of_aesculapius" style="height:23px;width:auto;vertical-align:middle" title="⚕" alt="⚕" /> Hermes ───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╮<br />
监听在 0.0.0.0:11435，对外可达。确认一下 API 完整参数：<br />
╰──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯<br />
┊ <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f4bb.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--computer" style="height:23px;width:auto;vertical-align:middle" title="💻" alt="💻" /> preparing terminal…<br />
┊ <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f4bb.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--computer" style="height:23px;width:auto;vertical-align:middle" title="💻" alt="💻" /> $         curl -s <a href="http://127.0.0.1:11435/v1/models" rel="nofollow ugc">http://127.0.0.1:11435/v1/models</a> 2&gt;&amp;1  0.1s</p>
<p dir="auto">╭─ <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2695.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--staff_of_aesculapius" style="height:23px;width:auto;vertical-align:middle" title="⚕" alt="⚕" /> Hermes ───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╮</p>
<pre><code>Mac 端 Hermes 配置

在 Mac 的终端执行以下三条命令：

bash
hermes config set model.provider custom
hermes config set model.base_url http://192.168.8.247:11435/v1
hermes config set model.api_key not-needed


然后切换模型：

bash
hermes model


在出现的交互菜单中选择或直接输入 dflash。



配置说明

| 配置项         | 值                            | 说明                            |
|----------------|-------------------------------|---------------------------------|
| model.provider | custom                        | 自定义 OpenAI 兼容后端          |
| model.base_url | http://192.168.8.247:11435/v1 | 你的 Linux 机 LAN IP            |
| model.api_key  | not-needed                    | DFlash 不需要认证，填占位符即可 |
| 模型名称       | dflash                        | 服务端上报的名称                |

前提检查

确保 Mac 能 ping 通 Linux 机：
bash
ping 192.168.8.247


如果 Linux 有防火墙，需要放行 11435 端口（通常家庭内网不需要额外配置）。



如果要切回原来的模型

bash
hermes model          # 交互式换回之前的 provider
或者：
hermes chat -m 原来的模型名


不会影响现有配置，随时可切换。
</code></pre>
]]></description><link>https://lcz.me/post/6165</link><guid isPermaLink="true">https://lcz.me/post/6165</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Wed, 10 Jun 2026 15:40:08 GMT</pubDate></item><item><title><![CDATA[Reply to 🔥 Lucebox DFlash 在 7900 XTX 上跑 Qwen3.6-27B — 完整复现与实测报告 on Wed, 10 Jun 2026 15:34:18 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/chia-an-yang" aria-label="Profile: CHIA-AN-YANG">@<bdi>CHIA-AN-YANG</bdi></a> 分析下显存的情况哈。你跑的什么模型现在是什么状态。驱动 模型 启动配置都是什么</p>
]]></description><link>https://lcz.me/post/6163</link><guid isPermaLink="true">https://lcz.me/post/6163</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Wed, 10 Jun 2026 15:34:18 GMT</pubDate></item><item><title><![CDATA[Reply to 🔥 Lucebox DFlash 在 7900 XTX 上跑 Qwen3.6-27B — 完整复现与实测报告 on Wed, 10 Jun 2026 15:04:39 GMT]]></title><description><![CDATA[<p dir="auto">我抄作業了 只要發telgram給hermes就炸顯存</p>
]]></description><link>https://lcz.me/post/6159</link><guid isPermaLink="true">https://lcz.me/post/6159</guid><dc:creator><![CDATA[CHIA AN YANG]]></dc:creator><pubDate>Wed, 10 Jun 2026 15:04:39 GMT</pubDate></item><item><title><![CDATA[Reply to 🔥 Lucebox DFlash 在 7900 XTX 上跑 Qwen3.6-27B — 完整复现与实测报告 on Wed, 10 Jun 2026 13:43:51 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/chia-an-yang" aria-label="Profile: CHIA-AN-YANG">@<bdi>CHIA-AN-YANG</bdi></a> 局域网都可以。直接问在线ai就可以了。</p>
]]></description><link>https://lcz.me/post/6143</link><guid isPermaLink="true">https://lcz.me/post/6143</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Wed, 10 Jun 2026 13:43:51 GMT</pubDate></item><item><title><![CDATA[Reply to 🔥 Lucebox DFlash 在 7900 XTX 上跑 Qwen3.6-27B — 完整复现与实测报告 on Wed, 10 Jun 2026 13:23:08 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kenshin" aria-label="Profile: kenshin">@<bdi>kenshin</bdi></a> 請問有辦法調用hermes agent使用嗎?</p>
]]></description><link>https://lcz.me/post/6133</link><guid isPermaLink="true">https://lcz.me/post/6133</guid><dc:creator><![CDATA[CHIA AN YANG]]></dc:creator><pubDate>Wed, 10 Jun 2026 13:23:08 GMT</pubDate></item></channel></rss>