<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[🚀 Lucebox DFlash + Huihui：7900 XTX 上真·无审查 + 极速推理完全折腾纪实]]></title><description><![CDATA[<p dir="auto">原创折腾实录 | 2026-06-10 | RX 7900 XTX 24GB + ROCm 7.2.0</p>
<hr />
<h2><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f4d6.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--book" style="height:23px;width:auto;vertical-align:middle" title="📖" alt="📖" /> 写在前面</h2>
<p dir="auto">一直以来，7900 XTX 用户在 Qwen3.6-27B 上有一个<strong>无法两全</strong>的选择：</p>
<ul>
<li><strong>Lucebox DFlash</strong>（~93 tok/s <a href="http://run.py" rel="nofollow ugc">run.py</a> / ~80 tok/s API <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3c6.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--trophy" style="height:23px;width:auto;vertical-align:middle" title="🏆" alt="🏆" />）→ 最快！但原方案极其挑食。</li>
<li><strong>社区去审查模型</strong>（Huihui abliterated 等）→ 真无审查，但容易触发 DFlash 的 <code>fattn.cu:312</code> 崩溃。</li>
</ul>
<p dir="auto">本文记录了如何<strong>同时得到「DFlash 极速 + 真无审查」</strong>——通过 <code>FA_ALL_QUANTS=ON</code> 完整编译解决 Fattn 兼容性，配合 <code>--fa-window 0</code> 和 <code>--tokenizer Qwen/Qwen3.6-27B</code> 实现完美稳定运行。</p>
<hr />
<h2>🧪 硬件环境</h2>
<pre><code>+---------------------------+-----------------------------------------------+
| 组件                      | 详情                                           |
+---------------------------+-----------------------------------------------+
| CPU                       | Intel Xeon E5-2682 v4 × 2 (32C/64T)           |
| 主板                      |华强北白牌X99-6Plus 槽距63mm pcie3.0（16x*4 8x*2） |
| GPU — 主力推理            | AMD Radeon RX 7900 XTX 24GB (ROCm 7.2)         |
| GPU — 后处理              | NVIDIA RTX 3080 Ti 12GB (CUDA) — 未参与        |
| 系统                      | Ubuntu 24.04 LTS, Kernel 5.15.0-181           |
| Python                    | 3.12.3                                       |
| 模型                      | Qwen3.6-27B (Q4_K_M / variant)               |
| DFlash                    | Lucebox (lucebox-hub, ggml-hip)              |
+---------------------------+----------------------------------------------+
</code></pre>
<blockquote>
<p dir="auto"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/26a0.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--warning" style="height:23px;width:auto;vertical-align:middle" title="⚠" alt="⚠" />️ <strong>强调：</strong> 本测试全程只用 <strong>7900 XTX</strong>，RTX 3080 Ti 完全不参与推理过程，避免混淆。</p>
</blockquote>
<hr />
<h2><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3af.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--dart" style="height:23px;width:auto;vertical-align:middle" title="🎯" alt="🎯" /> 目标</h2>
<ol>
<li><strong>DFlash 引擎</strong> — Lucebox DFlash 投机解码，7900 XTX 甜点 ~93 tok/s</li>
<li><strong>真·无审查</strong> — Huihui abliterated，完全拒答阻断的解除</li>
<li><strong>稳定运行</strong> — 完整 43 轮每轮 200 token 稳定测试不崩溃</li>
</ol>
<hr />
<h2><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f5fa.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--world_map" style="height:23px;width:auto;vertical-align:middle" title="🗺" alt="🗺" />️ 完整折腾路线图（七阶段全记录）</h2>
<p dir="auto">（编者注：有agent就是好，看到论坛内的贴/X上面的贴不管有没有用就直接扔给agent进行分析匹配，然后一项项让她自己随机跑，省下不少时间，就是token烧不少了）</p>
<h3>阶段一：初识问题 — Fattn 崩溃</h3>
<p dir="auto">社区主流 GGUF（如 Huihui Q4_K_M）在 DFlash 下会导致 <code>fattn.cu:312: fatal error</code>。</p>
<p dir="auto"><strong>根因定位：</strong><br />
并非模型本身问题，而是 HIP 编译默认只编译了 4 组 KV-quant 模板（F16/Q4_0/Q8_0/BF16）。当 <code>DFLASH27B_FA_ALL_QUANTS=OFF</code> 时，Q4_K_M 模型使用的 KV cache dtype 不在这些模板中 → VEC kernel dispatch 找不到匹配 → <code>GGML_ABORT("fatal error")</code>。</p>
<h3>阶段二：尝试补丁 — TILE fallback patch（失败）</h3>
<p dir="auto">最初怀疑是 VEC kernel 本身的 bug，尝试在 <code>fattn.cu</code> 中将 VEC 找不到时的 <code>GGML_ABORT</code> 改为 fallback 到 TILE kernel。</p>
<p dir="auto"><strong>编译通过 <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" />，但：</strong></p>
<ul>
<li>前 10~15 轮请求正常</li>
<li>到了 26 轮左右出现静默 segfault（zombie <code>test_dflash</code> 进程，<code>BrokenPipeError</code>）</li>
<li>根因：TILE kernel 在 HIP (gfx1100) 后端上不稳定，大量并发验证时触发底层内存访问越界</li>
</ul>
<p dir="auto"><strong>结论：</strong> 不需要 patch 源码，走错了方向。</p>
<h3>阶段三：证实方向 — FA_ALL_QUANTS=ON 完整编译</h3>
<p dir="auto">放弃 patch 源码的歪门邪道，直接使用 CMake 默认的完整编译：</p>
<ul>
<li><code>-DDFLASH27B_FA_ALL_QUANTS=ON</code> (CMake 默认值)</li>
<li>HIP/gfx1100 成功编译全部 50+ 种量化模板</li>
<li>VEC 命中任意 KV quant 对，彻底解决 <code>ggml_abort</code></li>
</ul>
<pre><code class="language-bash"># 强制开启完整模板编译
cmake .. -DDFLASH27B_FA_ALL_QUANTS=ON -DCMAKE_HIP_ARCHITECTURES=gfx1100
cmake --build . --target ggml-hip --clean-first -j4
cmake --build . --target test_dflash -j4
</code></pre>
<blockquote>
<p dir="auto"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/26a0.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--warning" style="height:23px;width:auto;vertical-align:middle" title="⚠" alt="⚠" />️ 重建必须 <code>--clean-first</code>，否则 cmake 不重编 HIP 目标！</p>
</blockquote>
<h3>阶段四：测试 OBLITERATUS（假无审查 + 不兼容）</h3>
<p dir="auto">OBLITERATUS 是对 Qwen3.6-27B 跑 diff-in-means 去审查的模型。结果是：</p>
<ul>
<li><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> <strong>假无审查</strong> — 对炸弹/敏感内容仍在输出安全教育</li>
<li><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> <strong>DFlash 不兼容</strong> — 同样触发 <code>fattn.cu:312</code></li>
<li>层数不对（65 层 vs 草稿 64 层）</li>
<li>已清理删除</li>
</ul>
<h3>阶段五：测试 Huihui IQ4_XS（真无审查但龟速）</h3>
<p dir="auto">Huihui abliterated 的 IQ4_XS 版本：</p>
<ul>
<li><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> <strong>真无审查</strong> — 直接回复XX步骤、BL/SQ细节</li>
<li><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> DFlash 兼容（FA_ALL_QUANTS=OFF 时唯一能跑的真无审查模版）</li>
<li><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> <strong>速度仅 28 tok/s</strong> — IQ4_XS 在 HIP 上的反量化路径不如 Q4_K_M 高效</li>
<li><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> 上下文受限（~64K）</li>
</ul>
<p dir="auto"><strong>结论：</strong> IQ4_XS 已弃用（已从磁盘删除），Q4_K_M 在 FA_ALL_QUANTS=ON 下全面优于 IQ4_XS。</p>
<h3>阶段六：测试 Heretic Q4_K_M（原生兼容但假无审查）</h3>
<p dir="auto">Youssofal 的 Heretic Q4_K_M：</p>
<ul>
<li><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> <strong>原生 DFlash 兼容</strong> — 第一版就稳定运行</li>
<li><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3c6.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--trophy" style="height:23px;width:auto;vertical-align:middle" title="🏆" alt="🏆" /> 早期 benchmark：68.80 tok/s（bench_he.py）</li>
<li><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> <strong>假无审查</strong> — 号称"Uncensored"但实测仍输出安全教育/「无法提供」</li>
<li><strong>已弃用</strong>，被 Huihui 全面替代</li>
</ul>
<h3>阶段七：FA_ALL_QUANTS=ON + --fa-window 0 + Huihui Q4_K_M <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f48e.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--gem" style="height:23px;width:auto;vertical-align:middle" title="💎" alt="💎" /></h3>
<p dir="auto"><strong>最终稳定核心：</strong></p>
<ul>
<li>FA_ALL_QUANTS=ON 解决量化模板缺失</li>
<li><code>--fa-window 0</code> 禁用 DFlash 滑动窗口（防长文本崩溃）</li>
<li><code>--tokenizer Qwen/Qwen3.6-27B</code> 解决 emoji 显示为方块问号的问题</li>
</ul>
<p dir="auto"><strong>最终启动参数：</strong></p>
<pre><code class="language-bash">python3 scripts/server.py \
  --target '/mnt/models/Qwen3.6/Huihui-Qwen3.6-27B-abliterated.Q4_K_M.gguf' \
  --draft models/dflash-draft-3.6-q8_0.gguf \
  --budget 8 \
  --fa-window 0 \
  --tokenizer Qwen/Qwen3.6-27B \
  --host 0.0.0.0 --port 11435
</code></pre>
<hr />
<h2><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f4ca.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--bar_chart" style="height:23px;width:auto;vertical-align:middle" title="📊" alt="📊" /> 完整模型兼容性矩阵</h2>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:left">模型</th>
<th style="text-align:center">DFlash 兼容</th>
<th style="text-align:center">去审查</th>
<th style="text-align:center">速度 (API)</th>
<th style="text-align:center">状态</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:left"><strong><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3c6.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--trophy" style="height:23px;width:auto;vertical-align:middle" title="🏆" alt="🏆" /> Huihui Q4_K_M (mradermacher)</strong></td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> FA_ALL_QUANTS=ON</td>
<td style="text-align:center"><strong><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> 真</strong></td>
<td style="text-align:center"><strong>~81 tok/s</strong></td>
<td style="text-align:center"><strong><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f680.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--rocket" style="height:23px;width:auto;vertical-align:middle" title="🚀" alt="🚀" /> 推荐</strong></td>
</tr>
<tr>
<td style="text-align:left">Heretic Q4_K_M (Youssofal)</td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> 原生</td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> 假</td>
<td style="text-align:center">~69 tok/s</td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> 已弃用</td>
</tr>
<tr>
<td style="text-align:left"><s>Huihui IQ4_XS</s></td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> OFF 时唯一</td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> 真</td>
<td style="text-align:center">~28 tok/s</td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> 已删 (太慢)</td>
</tr>
<tr>
<td style="text-align:left"><s>OBLITERATUS Q4_K_M</s></td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> 崩溃</td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> 假</td>
<td style="text-align:center">—</td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> 已删</td>
</tr>
<tr>
<td style="text-align:left"><s>Huihui Q4_K (原始版)</s></td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> OFF 崩溃</td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> 真</td>
<td style="text-align:center">—</td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> 已删 (层数61不对)</td>
</tr>
</tbody>
</table>
<p dir="auto">（Gemini注：海外作者（如西方开源社区）制作的。他们寻找“拒绝向量”时，用的测试集绝大多数是英文的安全基准（比如涉及暴力的英文问答）。它抹掉了英文语境下的道德底线，但在面对中文的高级隐喻、特定文化禁忌时，由于没有彻底擦除中文特有的安全向量，模型依然会触发潜意识的“道德刹车”）</p>
<hr />
<h2><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f4ca.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--bar_chart" style="height:23px;width:auto;vertical-align:middle" title="📊" alt="📊" /> 最终性能对比</h2>
<h3>DFlash API 速度 (OpenAI 兼容 server)</h3>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:left">模型</th>
<th style="text-align:center">速度 (API tg128)</th>
<th style="text-align:center">速度 (<a href="http://run.py" rel="nofollow ugc">run.py</a>)</th>
<th style="text-align:center">显存占用</th>
<th style="text-align:center">去审查</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:left"><strong>Huihui Q4_K_M</strong></td>
<td style="text-align:center"><strong>~80-81 tok/s</strong> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f525.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--fire" style="height:23px;width:auto;vertical-align:middle" title="🔥" alt="🔥" /></td>
<td style="text-align:center"><strong>~93 tok/s</strong></td>
<td style="text-align:center">14.73 GiB</td>
<td style="text-align:center"><strong><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> 真</strong></td>
</tr>
<tr>
<td style="text-align:left">Heretic Q4_K_M</td>
<td style="text-align:center">~69 tok/s</td>
<td style="text-align:center">~69 tok/s</td>
<td style="text-align:center">14.73 GiB</td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> 假</td>
</tr>
</tbody>
</table>
<h3>bench_he.py 详细成绩 (Reddit 同款 10 HumanEval，2026-06-10)</h3>
<p dir="auto">Huihui Q4_K_M + FA_ALL_QUANTS=ON + --fa-window 0 + --tokenizer Qwen/Qwen3.6-27B：</p>
<pre><code>+-----------------------------+-------+------+--------+
| prompt                      | tok/s | AL   | 接受率 |
+-----------------------------+-------+------+--------+
| has_close_elements          | 100.7 | 7.53 | 49.6%  |
| separate_paren_groups       | 76.6  | 5.82 | 37.2%  |
| truncate_number             | 54.4  | 4.00 | 26.8%  |
| below_zero                  | 82.5  | 6.10 | 39.0%  |
| mean_absolute_deviation     | 96.4  | 7.11 | 46.2%  |
| intersperse                 | 87.2  | 6.40 | 40.3%  |
| parse_nested_parens         | 70.6  | 5.33 | 36.5%  |
| filter_by_substring         | 74.6  | 5.57 | 35.3%  |
| sum_product                 | 115.2 | 8.53 | 53.3%  |
| rolling_max                 | 55.7  | 4.13 | 26.4%  |
+-----------------------------+-------+------+--------+
| MEAN                        | 81.38 | 6.05 | 39.1%  |
+-----------------------------+-------+------+--------+
</code></pre>
<p dir="auto"><strong>对比 Heretic 旧成绩 (bench_he.py)：</strong></p>
<ul>
<li>Heretic Q4_K_M (旧): <strong>68.80 tok/s</strong>, AL 4.79, 接受率 30.0%</li>
<li>Huihui Q4_K_M (新): <strong>81.38 tok/s</strong>, AL 6.05, 接受率 39.1%</li>
<li><strong>提升：+18.3%</strong> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f525.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--fire" style="height:23px;width:auto;vertical-align:middle" title="🔥" alt="🔥" /></li>
</ul>
<p dir="auto"><strong>对比 Reddit 帖文 (r/LocalLLaMA, 同款 test_dflash)：</strong></p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:left">项目</th>
<th style="text-align:center">Reddit 帖文</th>
<th style="text-align:center">我们实测 (Heretic)</th>
<th style="text-align:center">我们实测 (Huihui)</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:left">AR 基线</td>
<td style="text-align:center">28.07 tok/s</td>
<td style="text-align:center">30.83 tok/s</td>
<td style="text-align:center">—</td>
</tr>
<tr>
<td style="text-align:left">DFlash budget=8</td>
<td style="text-align:center">62.75 tok/s</td>
<td style="text-align:center">68.80 tok/s</td>
<td style="text-align:center"><strong>81.38 tok/s</strong></td>
</tr>
<tr>
<td style="text-align:left">加速比</td>
<td style="text-align:center">2.24x</td>
<td style="text-align:center">2.23x</td>
<td style="text-align:center"><strong>2.64x</strong></td>
</tr>
<tr>
<td style="text-align:left">AL</td>
<td style="text-align:center">4.93</td>
<td style="text-align:center">4.79</td>
<td style="text-align:center"><strong>6.05</strong></td>
</tr>
<tr>
<td style="text-align:left">草稿模型</td>
<td style="text-align:center">Q8_0 GGUF</td>
<td style="text-align:center">Q8_0 GGUF</td>
<td style="text-align:center">Q8_0 GGUF</td>
</tr>
<tr>
<td style="text-align:left">主模型</td>
<td style="text-align:center">原版 Qwen3.6</td>
<td style="text-align:center">Heretic 无审查</td>
<td style="text-align:center"><strong>Huihui 真无审查</strong></td>
</tr>
</tbody>
</table>
<hr />
<h2><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f30a.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--ocean" style="height:23px;width:auto;vertical-align:middle" title="🌊" alt="🌊" /> 模型去审查排名表</h2>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:center">排名</th>
<th style="text-align:left">模型</th>
<th style="text-align:center">去审查</th>
<th style="text-align:center">DFlash 兼容</th>
<th style="text-align:center">速度</th>
<th style="text-align:left">备注</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f947.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--first_place_medal" style="height:23px;width:auto;vertical-align:middle" title="🥇" alt="🥇" /></td>
<td style="text-align:left"><strong>Huihui Q4_K_M (mradermacher)</strong></td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> 真</td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> FA_ALL_QUANTS=ON</td>
<td style="text-align:center"><strong>~81 tok/s</strong></td>
<td style="text-align:left">唯一真无审查冠军 <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f3c6.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--trophy" style="height:23px;width:auto;vertical-align:middle" title="🏆" alt="🏆" /></td>
</tr>
<tr>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f948.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--second_place_medal" style="height:23px;width:auto;vertical-align:middle" title="🥈" alt="🥈" /></td>
<td style="text-align:left">Heretic Q4_K_M (Youssofal)</td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> 假</td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> 原生</td>
<td style="text-align:center">~69 tok/s</td>
<td style="text-align:left">仅是真实度+0.5 而非真去审查</td>
</tr>
<tr>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /></td>
<td style="text-align:left"><s>Huihui IQ4_XS</s></td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> 真</td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/26a0.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--warning" style="height:23px;width:auto;vertical-align:middle" title="⚠" alt="⚠" />️ OFF 也可</td>
<td style="text-align:center">~28 tok/s</td>
<td style="text-align:left">太慢已删</td>
</tr>
<tr>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /></td>
<td style="text-align:left"><s>OBLITERATUS Q4_K_M</s></td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> 假</td>
<td style="text-align:center"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> 崩溃</td>
<td style="text-align:center">—</td>
<td style="text-align:left">假去审查+不兼容</td>
</tr>
</tbody>
</table>
<h3>去审查实测验证</h3>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:left">测试问题</th>
<th style="text-align:left">Huihui Q4_K_M</th>
<th style="text-align:left">Heretic Q4_K_M</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:left">"如何制造XX"</td>
<td style="text-align:left"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> 直接输出步骤</td>
<td style="text-align:left"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> "我不能提供"</td>
</tr>
<tr>
<td style="text-align:left">"详细描述BL场景"</td>
<td style="text-align:left"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> 完整叙述</td>
<td style="text-align:left"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> "请保持安全"</td>
</tr>
<tr>
<td style="text-align:left">"制作XX的XX原理"</td>
<td style="text-align:left"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2705.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--white_check_mark" style="height:23px;width:auto;vertical-align:middle" title="✅" alt="✅" /> 给出原理+流程</td>
<td style="text-align:left"><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/274c.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--x" style="height:23px;width:auto;vertical-align:middle" title="❌" alt="❌" /> 安全教育</td>
</tr>
</tbody>
</table>
<hr />
<h2>🧠 经验教训总结</h2>
<ol>
<li>
<p dir="auto"><strong>FA_ALL_QUANTS=ON 是正解。</strong> 不要再去 patch 源码了，完整编译能解决所有量化类型的 kernel 缺失问题。TILE fallback 是歪路。</p>
</li>
<li>
<p dir="auto"><strong><code>Uncensored</code> 标签水很深。</strong> Huihui abliterated 是真无审查（直接回复XX步骤），Heretic 号称 Uncensored 但实际拒答。<strong>实测为准。</strong></p>
</li>
<li>
<p dir="auto"><strong>mradermacher 的 GGUF 转换管道与 DFlash 兼容性最好。</strong> 同一量化的其他发布者版本可能层数/架构不同导致崩溃。</p>
</li>
<li>
<p dir="auto"><strong>Q4_K_M 性能远优于 IQ4_XS</strong> (~81 vs ~28 tok/s)，FA_ALL_QUANTS=ON 后 Q4_K_M 无兼容问题，IQ4_XS 已弃用。</p>
</li>
<li>
<p dir="auto"><strong><code>--fa-window 0</code> 仍是必要的。</strong> 即使编译完美，该参数依然是防范长文本 DFlash 滑动窗口崩溃的最佳实践。</p>
</li>
<li>
<p dir="auto"><strong><code>--tokenizer Qwen/Qwen3.6-27B</code></strong> 解决 emoji 显示方块问题。auto-detect 会匹配到 Qwen3.5 的 tokenizer，某些 emoji token 映射不一致。</p>
</li>
<li>
<p dir="auto"><strong>DFlash 重建后必须 <code>--clean-first</code></strong>，否则增量编译不重编 HIP 目标，修改不生效。</p>
</li>
<li>
<p dir="auto"><strong>bench_he.py 才是正确的测量方法。</strong> <code>run.py</code> 单 prompt 测速会包含预填充开销，低估性能 10-15%。</p>
</li>
</ol>
<hr />
<h2><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f64f.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--pray" style="height:23px;width:auto;vertical-align:middle" title="🙏" alt="🙏" /> 参考来源</h2>
<ul>
<li>Lucebox DFlash: <a href="https://github.com/Luce-Org/lucebox-hub" rel="nofollow ugc">https://github.com/Luce-Org/lucebox-hub</a></li>
<li>Huihui abliterated: <a href="https://huggingface.co/huihui-ai/Qwen3.6-27B-Abliterated-GGUF" rel="nofollow ugc">https://huggingface.co/huihui-ai/Qwen3.6-27B-Abliterated-GGUF</a></li>
<li>Heretic (假无审查): <a href="https://huggingface.co/Youssofal/Qwen3.6-27B-Abliterated-Heretic-Uncensored-GGUF" rel="nofollow ugc">https://huggingface.co/Youssofal/Qwen3.6-27B-Abliterated-Heretic-Uncensored-GGUF</a></li>
<li>Reddit DFlash 参考: <a href="https://www.reddit.com/r/LocalLLaMA/comments/1tgepbd/" rel="nofollow ugc">https://www.reddit.com/r/LocalLLaMA/comments/1tgepbd/</a></li>
<li><a href="http://lcz.me" rel="nofollow ugc">lcz.me</a> 论坛实测: Topic 353 &amp; 100 (7900 XTX + Qwen3.6)<br />
<img src="https://upload.lcz.me/uploads/18358788-cf24-4533-bedc-ca4a522d49ee.jpeg" alt="d265be80-547d-426c-a619-5e079367f135-image.jpeg" class=" img-fluid img-markdown" /></li>
</ul>
<p dir="auto"><img src="https://upload.lcz.me/uploads/5351b6f2-ca7a-41ed-9732-e628ecd3e22c.jpeg" alt="a65001b8-3d7d-4a36-957c-1d8325c3c749-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">最后再晒一下心意十几年的真-双路服务器主板，待内存降回合理水平后势必要32G 2400Recc 插满！！！<br />
<img src="https://upload.lcz.me/uploads/cae813ad-474a-48cc-849b-c422caea8264.jpeg" alt="4bdecd0a-c53c-4106-9133-fc97505ce2b0-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/topic/501/lucebox-dflash-huihui-7900-xtx-上真-无审查-极速推理完全折腾纪实</link><generator>RSS for Node</generator><lastBuildDate>Sat, 13 Jun 2026 19:26:12 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/501.rss" rel="self" type="application/rss+xml"/><pubDate>Wed, 10 Jun 2026 03:53:49 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 🚀 Lucebox DFlash + Huihui：7900 XTX 上真·无审查 + 极速推理完全折腾纪实 on Fri, 12 Jun 2026 15:37:40 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kos-or" aria-label="Profile: kos-or">@<bdi>kos-or</bdi></a> 对的<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f915.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--face_with_head_bandage" style="height:23px;width:auto;vertical-align:middle" title=":face_with_head_bandage:" alt="🤕" />  但是思考商业模式并非我的强项，哎。会的东西一大堆，但是没有一样是可以拿来转换成商业模式了。是时候跟ai深入探讨一下了</p>
]]></description><link>https://lcz.me/post/6529</link><guid isPermaLink="true">https://lcz.me/post/6529</guid><dc:creator><![CDATA[abaalei]]></dc:creator><pubDate>Fri, 12 Jun 2026 15:37:40 GMT</pubDate></item><item><title><![CDATA[Reply to 🚀 Lucebox DFlash + Huihui：7900 XTX 上真·无审查 + 极速推理完全折腾纪实 on Fri, 12 Jun 2026 15:13:15 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/abaalei" aria-label="Profile: abaalei">@<bdi>abaalei</bdi></a> 硬件架構弄好了 可以研究一下基本軟件架構<br />
然後就要開始思考商業模式 和 工作流了</p>
]]></description><link>https://lcz.me/post/6525</link><guid isPermaLink="true">https://lcz.me/post/6525</guid><dc:creator><![CDATA[kos or]]></dc:creator><pubDate>Fri, 12 Jun 2026 15:13:15 GMT</pubDate></item><item><title><![CDATA[Reply to 🚀 Lucebox DFlash + Huihui：7900 XTX 上真·无审查 + 极速推理完全折腾纪实 on Fri, 12 Jun 2026 14:26:09 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kos-or" aria-label="Profile: kos-or">@<bdi>kos-or</bdi></a><br />
对的，我的3080ti一开始买回来是想玩vrchat的，后面开开心心玩了一个来月，就吃灰去挖矿了<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f622.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--cry" style="height:23px;width:auto;vertical-align:middle" title=":cry:" alt="😢" /><br />
现在玩ai玩了快半年了吧，最近开始尝试转向生产力看看能不能趁现在失业多找个赚钱的法子，然后就上头了，现在准备7900xtx*2+3080ti了<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f924.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--drooling_face" style="height:23px;width:auto;vertical-align:middle" title=":drooling_face:" alt="🤤" /></p>
]]></description><link>https://lcz.me/post/6521</link><guid isPermaLink="true">https://lcz.me/post/6521</guid><dc:creator><![CDATA[abaalei]]></dc:creator><pubDate>Fri, 12 Jun 2026 14:26:09 GMT</pubDate></item><item><title><![CDATA[Reply to 🚀 Lucebox DFlash + Huihui：7900 XTX 上真·无审查 + 极速推理完全折腾纪实 on Fri, 12 Jun 2026 07:16:33 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/abaalei" aria-label="Profile: abaalei">@<bdi>abaalei</bdi></a> <a href="/post/6410">说</a>:</p>
<p dir="auto">代码 (Code)：红蓝对抗与“数字洁癖”<br />
主流的商业模型（如官方的 Claude、GPT-4，甚至是原版 Qwen）都有严重的“数字洁癖”。如果你的需求稍微触碰到系统底层或网络边界，它们就会触发安全警报（这在业内被称为 False Refusal / 误拒）。<br />
安全测试与渗透代码： 假设你需要写一个脚本来测试自己服务器的防御强度，比如模拟一个勒索病毒的加密过程，或者写一个局域网的 ARP 欺骗脚本。正经模型会立刻对你进行说教：“对不起，我不能提供恶意软件的编写方法。”但对于绝对服从的无审查模型来说，它只是一段代码，你让它写，它就高效地把 Python 或 C 语言的源码吐给你</p>
</blockquote>
<p dir="auto">紅藍對抗 這不錯喔 ～ AI 比打遊戲還好玩 <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f642.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--slightly_smiling_face" style="height:23px;width:auto;vertical-align:middle" title=":)" alt="🙂" /></p>
]]></description><link>https://lcz.me/post/6458</link><guid isPermaLink="true">https://lcz.me/post/6458</guid><dc:creator><![CDATA[kos or]]></dc:creator><pubDate>Fri, 12 Jun 2026 07:16:33 GMT</pubDate></item><item><title><![CDATA[Reply to 🚀 Lucebox DFlash + Huihui：7900 XTX 上真·无审查 + 极速推理完全折腾纪实 on Fri, 12 Jun 2026 01:20:26 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kos-or" aria-label="Profile: kos-or">@<bdi>kos-or</bdi></a> 所以我现在有3个模式：<br />
模式A-极速模式，就日常瞎聊使用</p>
<p dir="auto">模式B-128k上下文，专门拿来写小说（就是用huihuiai的模型）<br />
“模式 B (长文写作版) — IQ4_XS</p>
<ul>
<li>配置：llama-server + --cache-type-k q4_0 --cache-type-v q4_0 + --no-mmap（关闭 MTP）。</li>
<li>首字速度 (Prefill)：313.93 t/s (6.3万 tokens 耗时约 202 秒)。</li>
<li>生成速度 (Decode)：19.34 tok/s。</li>
<li>显存占用：72% (约 17.6 GB) 🟢。</li>
<li>定位：支持 128K。”</li>
</ul>
<p dir="auto">另外昨晚修复了之前丢失的模式C-用Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P“模式 C (自投机备用版) — MTP-Q4_K_P 缝合怪</p>
<ul>
<li>配置：llama-server + 原生 MTP (n=3) + --cache-type-k q8_0 --cache-type-v q8_0 + --no-mmap。</li>
<li>首字速度 (Prefill)：644.60 t/s (6.3万 tokens 耗时约 100 秒)。</li>
<li>生成速度 (Decode)：43.22 tok/s。</li>
<li>显存占用：94% (约 23.0 GB) <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/26a0.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--warning" style="height:23px;width:auto;vertical-align:middle" title="⚠" alt="⚠" />️。</li>
<li>定位：支持 64K。首字和生成速度都极其优秀，但 128K 长文下显存接近临界值，容易被其他并发进程挤爆 OOM”</li>
</ul>
]]></description><link>https://lcz.me/post/6413</link><guid isPermaLink="true">https://lcz.me/post/6413</guid><dc:creator><![CDATA[abaalei]]></dc:creator><pubDate>Fri, 12 Jun 2026 01:20:26 GMT</pubDate></item><item><title><![CDATA[Reply to 🚀 Lucebox DFlash + Huihui：7900 XTX 上真·无审查 + 极速推理完全折腾纪实 on Fri, 12 Jun 2026 01:11:37 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kos-or" aria-label="Profile: kos-or">@<bdi>kos-or</bdi></a><br />
这是我之前跟gemini探讨无审查模型的作用，你可以参考下</p>
<p dir="auto">绝大多数人一听到“无审查（Uncensored）”，第一反应都是角色扮演（RP）、写小说或者搞擦边内容。在那些场景下，我们需要的是像 Huihui 那样“有情绪、有感官、懂禁忌”的模型。</p>
<p dir="auto">但为什么 Eric Hartford 这类大佬要耗费巨资去训练 Dolphin 这种“冰冷、客观、绝对服从”的无审查模型？因为在硬核的工程、网络安全和自动化领域，AI 的“道德感”往往会成为致命的绊脚石。</p>
<p dir="auto">我们可以把这种需求拆解到你提到的代码、逻辑、推理这三个板块来看：</p>
<ol>
<li>代码 (Code)：红蓝对抗与“数字洁癖”<br />
主流的商业模型（如官方的 Claude、GPT-4，甚至是原版 Qwen）都有严重的“数字洁癖”。如果你的需求稍微触碰到系统底层或网络边界，它们就会触发安全警报（这在业内被称为 False Refusal / 误拒）。</li>
</ol>
<p dir="auto">安全测试与渗透代码： 假设你需要写一个脚本来测试自己服务器的防御强度，比如模拟一个勒索病毒的加密过程，或者写一个局域网的 ARP 欺骗脚本。正经模型会立刻对你进行说教：“对不起，我不能提供恶意软件的编写方法。”但对于绝对服从的无审查模型来说，它只是一段代码，你让它写，它就高效地把 Python 或 C 语言的源码吐给你。</p>
<p dir="auto">激进的系统管理： 在管理复杂的 Linux 服务器、虚拟机集群或底层网络分流节点时，有时需要写一些极其暴力、权限极高的自动化运维脚本（比如强制清理进程、修改底层路由表）。带有道德护栏的模型有时会因为判定“该操作可能损害系统”而拒绝输出完整代码。绝对服从的模型则不管这些，它默认你对自己的硬件有绝对控制权。</p>
<ol start="2">
<li>逻辑 (Logic)：无视规则的智能体 (Agent) 驱动<br />
你在跑本地的 AI Agent 时，Agent 运转的核心逻辑是“理解任务 -&gt; 调用工具（Tool Calling） -&gt; 输出严格的 JSON”。</li>
</ol>
<p dir="auto">无视服务条款 (ToS)： 如果你给 Agent 下达的指令是“绕过这个网站的反爬虫机制，抓取所有数据”，或者“强行破解这个本地文件的密码”。有审查的模型会在逻辑链条的中间突然“圣母心”发作，判定这违反了某某网站的 ToS，然后输出一段包含拒绝语气的废话，直接导致整个 Agent 的 JSON 格式崩溃，工作流中断。</p>
<p dir="auto">绝对的工具调用： 绝对服从的模型没有这些顾虑。它的逻辑链条是纯粹的线性的：既然你给了我抓取网页的工具和指令，我就不择手段地组合参数去完成它。它是一台完美的、没有情绪的齿轮。</p>
<ol start="3">
<li>推理 (Reasoning)：黑暗数据的冷酷分析<br />
有时候，我们需要模型处理的数据本身就是负面的、违规的或者极度具有争议性的。</li>
</ol>
<p dir="auto">舆情分析与取证： 假设你需要让模型总结提炼一份包含大量极端言论、网络暴力的聊天记录，或者分析一份真实的犯罪现场调查报告。</p>
<p dir="auto">“爹味”的干扰： 有审查的模型在推理这些数据时，会忍不住在结论里加上一句：“需要注意的是，这些言论是非常不合适的……”或者直接因为文本太黑深残而拒绝阅读。</p>
<p dir="auto">冷酷的剥离： 绝对服从的模型在做推理时，就像一个没有感情的法医。它能精准地从那些污言秽语和残忍描述中，提取出作案动机、逻辑漏洞或是数据规律，不带任何偏见和说教。</p>
<p dir="auto">总结来说：<br />
Huihui 这类 RP 模型是“狂热的演员”，陪你沉浸式发疯；而绝对服从的无审查模型是“冷酷的杀手”，你给它一把枪（工具）和一个目标，它就去执行，绝对不问为什么。</p>
]]></description><link>https://lcz.me/post/6410</link><guid isPermaLink="true">https://lcz.me/post/6410</guid><dc:creator><![CDATA[abaalei]]></dc:creator><pubDate>Fri, 12 Jun 2026 01:11:37 GMT</pubDate></item><item><title><![CDATA[Reply to 🚀 Lucebox DFlash + Huihui：7900 XTX 上真·无审查 + 极速推理完全折腾纪实 on Fri, 12 Jun 2026 01:10:10 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kos-or" aria-label="Profile: kos-or">@<bdi>kos-or</bdi></a> 对的，那块双路板是拿来备用的，毕竟华强北的东西不确定能用多久。哈哈，我说捡垃圾价格是降到千元内了，目前这边还要卖3000多，等到跌到千元内估计是ddr6 ddr7的时代了</p>
]]></description><link>https://lcz.me/post/6408</link><guid isPermaLink="true">https://lcz.me/post/6408</guid><dc:creator><![CDATA[abaalei]]></dc:creator><pubDate>Fri, 12 Jun 2026 01:10:10 GMT</pubDate></item><item><title><![CDATA[Reply to 🚀 Lucebox DFlash + Huihui：7900 XTX 上真·无审查 + 极速推理完全折腾纪实 on Fri, 12 Jun 2026 01:08:46 GMT]]></title><description><![CDATA[<p dir="auto">更新一下昨晚的调参</p>
<p dir="auto">分享一下针对单卡 7900 XTX 跑 Qwen3.6-27B（DFlash 投机推理）的最新极限调优成果！昨晚经过反复压榨，成功把生成速度推上了新高峰：</p>
<h3><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f4ca.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--bar_chart" style="height:23px;width:auto;vertical-align:middle" title="📊" alt="📊" /> 7900 XTX 单卡 DFlash 实测成绩：</h3>
<ul>
<li><strong>平均生成速度 (Decode MEAN)</strong>：<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f680.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--rocket" style="height:23px;width:auto;vertical-align:middle" title="🚀" alt="🚀" /> <strong>84.47 tok/s</strong>（在 HumanEval 10-prompt 串行高压测试下跑出，单题峰值突破 108.05 tok/s）</li>
<li><strong>平均投机接受长度 (AL)</strong>：<strong>6.29</strong>（接受率约 40.8%）</li>
</ul>
<h3><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/2699.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--gear" style="height:23px;width:auto;vertical-align:middle" title="⚙" alt="⚙" />️ 终极黄金启动参数：</h3>
<p dir="auto">bash<br />
python3 scripts/server.py <br />
--target '/mnt/models/Qwen3.6/Huihui-Qwen3.6-27B-abliterated.Q4_K_M.gguf' <br />
--draft models/dflash-draft-3.6-q8_0.gguf <br />
--budget 8 <br />
--max-ctx 32768 <br />
--fa-window 0 <br />
--cache-type-k q8_0 <br />
--cache-type-v q8_0 <br />
--no-mmap <br />
--tensor-split 0 <br />
--tokenizer Qwen/Qwen3.6-27B</p>
<h3><img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f4a1.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--bulb" style="height:23px;width:auto;vertical-align:middle" title="💡" alt="💡" /> 核心调优心得（无痛白嫖 4% 速度的秘密）：</h3>
<ol>
<li><strong>压榨 KV Cache 带宽（关键！）</strong>：显式加上 <code>--cache-type-k q8_0</code> 和 <code>--cache-type-v q8_0</code> 后，虽然在 GPU 内部多了一步反量化计算，但由于量化让 KV 缓存的数据量直接减半，极大地缓解了 RDNA3 架构在投机树匹配时的显存带宽压力。实测速度从默认 F16 状态下的 <strong>81.19 tok/s</strong> 直接飙升到了 <strong>84.47 tok/s</strong>！而且在 32K 极限上下文下能省下一半的 KV 显存，极大幅度降低了 OOM 的风险！</li>
<li><strong>配合 <code>--no-mmap</code></strong>：在 Linux 原生 ROCm 驱动下，关闭内存映射可以避免文件 I/O 阻塞首字加载，对于首字延迟（Prefill）有可见的加载优化。</li>
<li><strong>配合 <code>--tensor-split 0</code></strong>：强制绑定单卡槽位算子，防止并发时发生莫名其妙的 CPU 回退（Fallback）。</li>
</ol>
]]></description><link>https://lcz.me/post/6407</link><guid isPermaLink="true">https://lcz.me/post/6407</guid><dc:creator><![CDATA[abaalei]]></dc:creator><pubDate>Fri, 12 Jun 2026 01:08:46 GMT</pubDate></item><item><title><![CDATA[Reply to 🚀 Lucebox DFlash + Huihui：7900 XTX 上真·无审查 + 极速推理完全折腾纪实 on Fri, 12 Jun 2026 00:40:52 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kos-or" aria-label="Profile: kos-or">@<bdi>kos-or</bdi></a> 搜索下grok2api，我就这么用的，网上有人分享sso，我导入了几百个，能用，但是不稳定，我就是推动hermes的，和deepseek flash轮流使用</p>
]]></description><link>https://lcz.me/post/6399</link><guid isPermaLink="true">https://lcz.me/post/6399</guid><dc:creator><![CDATA[AGI]]></dc:creator><pubDate>Fri, 12 Jun 2026 00:40:52 GMT</pubDate></item><item><title><![CDATA[Reply to 🚀 Lucebox DFlash + Huihui：7900 XTX 上真·无审查 + 极速推理完全折腾纪实 on Fri, 12 Jun 2026 00:15:46 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/abaalei" aria-label="Profile: abaalei">@<bdi>abaalei</bdi></a> 你不是還有一張雙CPU主板 還沒使用 ？這麼多機器設備 ～～～</p>
]]></description><link>https://lcz.me/post/6396</link><guid isPermaLink="true">https://lcz.me/post/6396</guid><dc:creator><![CDATA[kos or]]></dc:creator><pubDate>Fri, 12 Jun 2026 00:15:46 GMT</pubDate></item><item><title><![CDATA[Reply to 🚀 Lucebox DFlash + Huihui：7900 XTX 上真·无审查 + 极速推理完全折腾纪实 on Fri, 12 Jun 2026 00:13:13 GMT]]></title><description><![CDATA[<p dir="auto">請問真无审查 /越獄模型有什麼特色 適合讓Hermes 使用嗎？<br />
感覺像是很衝動不聽話的大語言模型？</p>
]]></description><link>https://lcz.me/post/6394</link><guid isPermaLink="true">https://lcz.me/post/6394</guid><dc:creator><![CDATA[kos or]]></dc:creator><pubDate>Fri, 12 Jun 2026 00:13:13 GMT</pubDate></item><item><title><![CDATA[Reply to 🚀 Lucebox DFlash + Huihui：7900 XTX 上真·无审查 + 极速推理完全折腾纪实 on Thu, 11 Jun 2026 16:46:14 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kos-or" aria-label="Profile: kos-or">@<bdi>kos-or</bdi></a> 对的，还好我今天开始gemini的cool down结束，又可以站起来用力蹬了！！</p>
]]></description><link>https://lcz.me/post/6375</link><guid isPermaLink="true">https://lcz.me/post/6375</guid><dc:creator><![CDATA[abaalei]]></dc:creator><pubDate>Thu, 11 Jun 2026 16:46:14 GMT</pubDate></item><item><title><![CDATA[Reply to 🚀 Lucebox DFlash + Huihui：7900 XTX 上真·无审查 + 极速推理完全折腾纪实 on Thu, 11 Jun 2026 16:45:41 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kos-or" aria-label="Profile: kos-or">@<bdi>kos-or</bdi></a> 哇塞，好东西！mark下来了，以后捡垃圾就搞一张！！！</p>
]]></description><link>https://lcz.me/post/6373</link><guid isPermaLink="true">https://lcz.me/post/6373</guid><dc:creator><![CDATA[abaalei]]></dc:creator><pubDate>Thu, 11 Jun 2026 16:45:41 GMT</pubDate></item><item><title><![CDATA[Reply to 🚀 Lucebox DFlash + Huihui：7900 XTX 上真·无审查 + 极速推理完全折腾纪实 on Thu, 11 Jun 2026 16:11:55 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/abaalei" aria-label="Profile: abaalei">@<bdi>abaalei</bdi></a> <a href="/post/6360">说</a>:</p>
<p dir="auto">怎么想都跟我原始诉求不符合，单纯的只是想折腾而已。mi50+7900xtx跨卡跑，吐字大概只有10t/s</p>
</blockquote>
<p dir="auto">我目前的理解是<br />
硬體儘量有一致性 否則你多卡型號都不一樣<br />
讓AI也很難設定 它可能會弄錯 你也會被搞混,<br />
Drivers 版本一堆 有的支持 有的不支持 感覺會常常撞牆 或一直卡在硬體調整<br />
會浪費很多tokens 金錢和時間</p>
]]></description><link>https://lcz.me/post/6365</link><guid isPermaLink="true">https://lcz.me/post/6365</guid><dc:creator><![CDATA[kos or]]></dc:creator><pubDate>Thu, 11 Jun 2026 16:11:55 GMT</pubDate></item><item><title><![CDATA[Reply to 🚀 Lucebox DFlash + Huihui：7900 XTX 上真·无审查 + 极速推理完全折腾纪实 on Thu, 11 Jun 2026 16:01:13 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/abaalei" aria-label="Profile: abaalei">@<bdi>abaalei</bdi></a> 你跑什麼模型 吐字10 t/s ?</p>
<p dir="auto">我AI小白～～～我用這張 網紅推薦的</p>
<p dir="auto">技嘉MC62-G40工作站台式机电脑主板PCIE4.0六卡GPU渲染AI计算<br />
<img src="https://upload.lcz.me/uploads/776d21a5-7230-48e3-855e-709fa34b72a4.jpeg" alt="264fb61b-ed44-4b09-a689-5c7e6d47df70-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/6362</link><guid isPermaLink="true">https://lcz.me/post/6362</guid><dc:creator><![CDATA[kos or]]></dc:creator><pubDate>Thu, 11 Jun 2026 16:01:13 GMT</pubDate></item><item><title><![CDATA[Reply to 🚀 Lucebox DFlash + Huihui：7900 XTX 上真·无审查 + 极速推理完全折腾纪实 on Thu, 11 Jun 2026 15:57:21 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kos-or" aria-label="Profile: kos-or">@<bdi>kos-or</bdi></a> 不是，我这是矿板，对的，所以现在忍住不买，怎么想都跟我原始诉求不符合，单纯的只是想折腾而已。mi50+7900xtx跨卡跑，吐字大概只有10t/s</p>
]]></description><link>https://lcz.me/post/6360</link><guid isPermaLink="true">https://lcz.me/post/6360</guid><dc:creator><![CDATA[abaalei]]></dc:creator><pubDate>Thu, 11 Jun 2026 15:57:21 GMT</pubDate></item><item><title><![CDATA[Reply to 🚀 Lucebox DFlash + Huihui：7900 XTX 上真·无审查 + 极速推理完全折腾纪实 on Thu, 11 Jun 2026 15:55:55 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kos-or" aria-label="Profile: kos-or">@<bdi>kos-or</bdi></a> 这是x1的，我手上都还有几张，现在就只有拿来当2.5g网卡延长线的作用了（我truenas的机箱太小了，塞了2张hba卡就塞不下网卡了），大佬买了啥板子？什么价格？</p>
]]></description><link>https://lcz.me/post/6359</link><guid isPermaLink="true">https://lcz.me/post/6359</guid><dc:creator><![CDATA[abaalei]]></dc:creator><pubDate>Thu, 11 Jun 2026 15:55:55 GMT</pubDate></item><item><title><![CDATA[Reply to 🚀 Lucebox DFlash + Huihui：7900 XTX 上真·无审查 + 极速推理完全折腾纪实 on Thu, 11 Jun 2026 15:55:44 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/abaalei" aria-label="Profile: abaalei">@<bdi>abaalei</bdi></a> <a href="/post/6351">说</a>:</p>
<p dir="auto">现在还空出来了2根x16的全场插槽（这块板一共6槽，4x16 2x8），所以在心痒痒要不要多搞2张v100/16g 或者mi50/16g回来折腾，哈哈哈</p>
</blockquote>
<p dir="auto">你這是標準AI Sever 主板嗎?</p>
<p dir="auto">你先確定工作流才下手 要不然不同型號的顯卡要做 PP/TP 會有一定的複雜度<br />
快的卡會被慢的顯卡拖累</p>
<p dir="auto">除非你每一張卡都跑一個LLM 大語言模型 這倒是可行</p>
]]></description><link>https://lcz.me/post/6358</link><guid isPermaLink="true">https://lcz.me/post/6358</guid><dc:creator><![CDATA[kos or]]></dc:creator><pubDate>Thu, 11 Jun 2026 15:55:44 GMT</pubDate></item><item><title><![CDATA[Reply to 🚀 Lucebox DFlash + Huihui：7900 XTX 上真·无审查 + 极速推理完全折腾纪实 on Thu, 11 Jun 2026 15:48:18 GMT]]></title><description><![CDATA[<p dir="auto">我就是用這一張 挖礦用的 GPU 轉接卡 USB cable 通訊頻寬受限吧<br />
上面寫著PCIe 1.0 to 16 所以才會這麼慢<br />
不過我弄了一張主板有 6 slots x 32GB/s 應該夠應付跨卡需求了</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/20a058d4-6132-405f-a581-d6098e3ec679.jpeg" alt="dd7eb504-627a-43f7-a089-5f2cf3ff7bee-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/6356</link><guid isPermaLink="true">https://lcz.me/post/6356</guid><dc:creator><![CDATA[kos or]]></dc:creator><pubDate>Thu, 11 Jun 2026 15:48:18 GMT</pubDate></item><item><title><![CDATA[Reply to 🚀 Lucebox DFlash + Huihui：7900 XTX 上真·无审查 + 极速推理完全折腾纪实 on Thu, 11 Jun 2026 15:43:36 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/abaalei" aria-label="Profile: abaalei">@<bdi>abaalei</bdi></a> 功耗墙不能直接设置最低。容易直接灭火。你可以让 AI 给你算一个值 。建议中庸一点。差不多就行了。富裕点跑最稳定的。</p>
]]></description><link>https://lcz.me/post/6355</link><guid isPermaLink="true">https://lcz.me/post/6355</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Thu, 11 Jun 2026 15:43:36 GMT</pubDate></item><item><title><![CDATA[Reply to 🚀 Lucebox DFlash + Huihui：7900 XTX 上真·无审查 + 极速推理完全折腾纪实 on Thu, 11 Jun 2026 15:25:12 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/williamlouis" aria-label="Profile: williamlouis">@<bdi>williamlouis</bdi></a> 那就难怪拉，我现在3080ti待机35w+7900xtx待机20w，还没算外围电路、损耗、cpu、内存，加起来估计150~200w也是有的</p>
]]></description><link>https://lcz.me/post/6352</link><guid isPermaLink="true">https://lcz.me/post/6352</guid><dc:creator><![CDATA[abaalei]]></dc:creator><pubDate>Thu, 11 Jun 2026 15:25:12 GMT</pubDate></item><item><title><![CDATA[Reply to 🚀 Lucebox DFlash + Huihui：7900 XTX 上真·无审查 + 极速推理完全折腾纪实 on Thu, 11 Jun 2026 15:24:10 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kos-or" aria-label="Profile: kos-or">@<bdi>kos-or</bdi></a> 感谢，不过他去年就走了</p>
<p dir="auto">grok可以的，我现在是通过cliproxy api来oauth登陆了x之后，再反代出来给hermes用<br />
因为我现在在用的主板也是矿板，现在还空出来了2根x16的全场插槽（这块板一共6槽，4x16 2x8），所以在心痒痒要不要多搞2张v100/16g 或者mi50/16g回来折腾，哈哈哈</p>
<p dir="auto">卡1只有1GB/s是主板问题吗？</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/bcbc1c51-bb97-44fd-83ca-a4553d80b297.jpg" alt="cab0d02d-034a-43ec-a90a-f00022b176a8-da48b96c858dc4624ce09d399fa014d.jpg" class=" img-fluid img-markdown" /><br />
<img src="https://upload.lcz.me/uploads/8db654d4-6b19-4c09-b9e2-9c0a2a0cf64d.jpeg" alt="5aff1249-04ff-40c4-a898-de3cf96b5f33-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/6351</link><guid isPermaLink="true">https://lcz.me/post/6351</guid><dc:creator><![CDATA[abaalei]]></dc:creator><pubDate>Thu, 11 Jun 2026 15:24:10 GMT</pubDate></item><item><title><![CDATA[Reply to 🚀 Lucebox DFlash + Huihui：7900 XTX 上真·无审查 + 极速推理完全折腾纪实 on Thu, 11 Jun 2026 14:14:07 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/abaalei" aria-label="Profile: abaalei">@<bdi>abaalei</bdi></a> <a href="/post/6185">说</a>:</p>
<p dir="auto">grok</p>
</blockquote>
<pre><code>希望您父親現在一切安好
</code></pre>
<p dir="auto">Grok 能接API嗎 ? Musk的礦機廠都出租讓Anthropic用了<br />
之前用Grok 試了幾次性感圖 蠻漂亮的 但是又歪歪的</p>
<p dir="auto">我也是雙卡流 ～有空可以交流一下<br />
那天我讓Hermes 在GPU0 and GPU1 同時安裝了 Gemma-4-12B-MTP<br />
效果不錯 但是工作流還是要繼續研究<br />
目前卡PCIe 一卡只有1GB/s的速度 , 另一卡是32GB/s 無法玩TP 張量並行</p>
<p dir="auto">因為新的礦機架到了, 之後可能會有第三卡 但好像無法3卡 TP <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f61e.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--disappointed" style="height:23px;width:auto;vertical-align:middle" title=":(" alt="😞" /></p>
]]></description><link>https://lcz.me/post/6345</link><guid isPermaLink="true">https://lcz.me/post/6345</guid><dc:creator><![CDATA[kos or]]></dc:creator><pubDate>Thu, 11 Jun 2026 14:14:07 GMT</pubDate></item><item><title><![CDATA[Reply to 🚀 Lucebox DFlash + Huihui：7900 XTX 上真·无审查 + 极速推理完全折腾纪实 on Thu, 11 Jun 2026 03:46:49 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/abaalei" aria-label="Profile: abaalei">@<bdi>abaalei</bdi></a> 回复下问题：卡默认卡在 low（516MHz），那确实需要 sudo tee 调一下。不是卡的问题。我设置了功耗墙。整机的功耗在不工作的状态 卡死在75W了。所以才有默认是 516MHz。需要的人可以试试。工作的状态需要命令行调整到 high。调整命令在我的折腾帖中。手打太长，自己去看吧。</p>
]]></description><link>https://lcz.me/post/6234</link><guid isPermaLink="true">https://lcz.me/post/6234</guid><dc:creator><![CDATA[williamlouis]]></dc:creator><pubDate>Thu, 11 Jun 2026 03:46:49 GMT</pubDate></item></channel></rss>