🚀 Lucebox DFlash + Huihui：7900 XTX 上真·无审查 + 极速推理完全折腾纪实

williamlouis

@abaalei 回复下问题：卡默认卡在 low（516MHz），那确实需要 sudo tee 调一下。不是卡的问题。我设置了功耗墙。整机的功耗在不工作的状态卡死在75W了。所以才有默认是 516MHz。需要的人可以试试。工作的状态需要命令行调整到 high。调整命令在我的折腾帖中。手打太长，自己去看吧。

kos or

@abaalei 说:

grok

希望您父親現在一切安好

Grok 能接API嗎 ? Musk的礦機廠都出租讓Anthropic用了
之前用Grok 試了幾次性感圖蠻漂亮的但是又歪歪的

我也是雙卡流～有空可以交流一下
那天我讓Hermes 在GPU0 and GPU1 同時安裝了 Gemma-4-12B-MTP
效果不錯但是工作流還是要繼續研究
目前卡PCIe 一卡只有1GB/s的速度 , 另一卡是32GB/s 無法玩TP 張量並行

因為新的礦機架到了, 之後可能會有第三卡但好像無法3卡 TP

abaalei

@kos-or 感谢，不过他去年就走了

grok可以的，我现在是通过cliproxy api来oauth登陆了x之后，再反代出来给hermes用
因为我现在在用的主板也是矿板，现在还空出来了2根x16的全场插槽（这块板一共6槽，4x16 2x8），所以在心痒痒要不要多搞2张v100/16g 或者mi50/16g回来折腾，哈哈哈

卡1只有1GB/s是主板问题吗？

cab0d02d-034a-43ec-a90a-f00022b176a8-da48b96c858dc4624ce09d399fa014d.jpg

abaalei

@williamlouis 那就难怪拉，我现在3080ti待机35w+7900xtx待机20w，还没算外围电路、损耗、cpu、内存，加起来估计150~200w也是有的

williamlouis

@abaalei 功耗墙不能直接设置最低。容易直接灭火。你可以让 AI 给你算一个值。建议中庸一点。差不多就行了。富裕点跑最稳定的。

kos or

我就是用這一張挖礦用的 GPU 轉接卡 USB cable 通訊頻寬受限吧
上面寫著PCIe 1.0 to 16 所以才會這麼慢
不過我弄了一張主板有 6 slots x 32GB/s 應該夠應付跨卡需求了

kos or

@abaalei 说:

现在还空出来了2根x16的全场插槽（这块板一共6槽，4x16 2x8），所以在心痒痒要不要多搞2张v100/16g 或者mi50/16g回来折腾，哈哈哈

你這是標準AI Sever 主板嗎?

你先確定工作流才下手要不然不同型號的顯卡要做 PP/TP 會有一定的複雜度
快的卡會被慢的顯卡拖累

除非你每一張卡都跑一個LLM 大語言模型這倒是可行

abaalei

@kos-or 这是x1的，我手上都还有几张，现在就只有拿来当2.5g网卡延长线的作用了（我truenas的机箱太小了，塞了2张hba卡就塞不下网卡了），大佬买了啥板子？什么价格？

abaalei

@kos-or 不是，我这是矿板，对的，所以现在忍住不买，怎么想都跟我原始诉求不符合，单纯的只是想折腾而已。mi50+7900xtx跨卡跑，吐字大概只有10t/s

kos or

@abaalei 你跑什麼模型吐字10 t/s ?

我AI小白～～～我用這張網紅推薦的

技嘉MC62-G40工作站台式机电脑主板PCIE4.0六卡GPU渲染AI计算

kos or

@abaalei 说:

怎么想都跟我原始诉求不符合，单纯的只是想折腾而已。mi50+7900xtx跨卡跑，吐字大概只有10t/s

我目前的理解是
硬體儘量有一致性否則你多卡型號都不一樣
讓AI也很難設定它可能會弄錯你也會被搞混,
Drivers 版本一堆有的支持有的不支持感覺會常常撞牆或一直卡在硬體調整
會浪費很多tokens 金錢和時間

abaalei

@kos-or 哇塞，好东西！mark下来了，以后捡垃圾就搞一张！！！

abaalei

@kos-or 对的，还好我今天开始gemini的cool down结束，又可以站起来用力蹬了！！

kos or

請問真无审查 /越獄模型有什麼特色適合讓Hermes 使用嗎？
感覺像是很衝動不聽話的大語言模型？

kos or

@abaalei 你不是還有一張雙CPU主板還沒使用？這麼多機器設備～～～

AGI

@kos-or 搜索下grok2api，我就这么用的，网上有人分享sso，我导入了几百个，能用，但是不稳定，我就是推动hermes的，和deepseek flash轮流使用

abaalei

更新一下昨晚的调参

分享一下针对单卡 7900 XTX 跑 Qwen3.6-27B（DFlash 投机推理）的最新极限调优成果！昨晚经过反复压榨，成功把生成速度推上了新高峰：

7900 XTX 单卡 DFlash 实测成绩：

平均生成速度 (Decode MEAN)： 84.47 tok/s（在 HumanEval 10-prompt 串行高压测试下跑出，单题峰值突破 108.05 tok/s）
平均投机接受长度 (AL)：6.29（接受率约 40.8%）

️ 终极黄金启动参数：

bash
python3 scripts/server.py
--target '/mnt/models/Qwen3.6/Huihui-Qwen3.6-27B-abliterated.Q4_K_M.gguf'
--draft models/dflash-draft-3.6-q8_0.gguf
--budget 8
--max-ctx 32768
--fa-window 0
--cache-type-k q8_0
--cache-type-v q8_0
--no-mmap
--tensor-split 0
--tokenizer Qwen/Qwen3.6-27B

核心调优心得（无痛白嫖 4% 速度的秘密）：

压榨 KV Cache 带宽（关键！）：显式加上 --cache-type-k q8_0 和 --cache-type-v q8_0 后，虽然在 GPU 内部多了一步反量化计算，但由于量化让 KV 缓存的数据量直接减半，极大地缓解了 RDNA3 架构在投机树匹配时的显存带宽压力。实测速度从默认 F16 状态下的 81.19 tok/s 直接飙升到了 84.47 tok/s！而且在 32K 极限上下文下能省下一半的 KV 显存，极大幅度降低了 OOM 的风险！
配合 --no-mmap：在 Linux 原生 ROCm 驱动下，关闭内存映射可以避免文件 I/O 阻塞首字加载，对于首字延迟（Prefill）有可见的加载优化。
配合 --tensor-split 0：强制绑定单卡槽位算子，防止并发时发生莫名其妙的 CPU 回退（Fallback）。

abaalei

@kos-or 对的，那块双路板是拿来备用的，毕竟华强北的东西不确定能用多久。哈哈，我说捡垃圾价格是降到千元内了，目前这边还要卖3000多，等到跌到千元内估计是ddr6 ddr7的时代了

abaalei

@kos-or
这是我之前跟gemini探讨无审查模型的作用，你可以参考下

绝大多数人一听到“无审查（Uncensored）”，第一反应都是角色扮演（RP）、写小说或者搞擦边内容。在那些场景下，我们需要的是像 Huihui 那样“有情绪、有感官、懂禁忌”的模型。

但为什么 Eric Hartford 这类大佬要耗费巨资去训练 Dolphin 这种“冰冷、客观、绝对服从”的无审查模型？因为在硬核的工程、网络安全和自动化领域，AI 的“道德感”往往会成为致命的绊脚石。

我们可以把这种需求拆解到你提到的代码、逻辑、推理这三个板块来看：

代码 (Code)：红蓝对抗与“数字洁癖”
主流的商业模型（如官方的 Claude、GPT-4，甚至是原版 Qwen）都有严重的“数字洁癖”。如果你的需求稍微触碰到系统底层或网络边界，它们就会触发安全警报（这在业内被称为 False Refusal / 误拒）。

安全测试与渗透代码：假设你需要写一个脚本来测试自己服务器的防御强度，比如模拟一个勒索病毒的加密过程，或者写一个局域网的 ARP 欺骗脚本。正经模型会立刻对你进行说教：“对不起，我不能提供恶意软件的编写方法。”但对于绝对服从的无审查模型来说，它只是一段代码，你让它写，它就高效地把 Python 或 C 语言的源码吐给你。

激进的系统管理：在管理复杂的 Linux 服务器、虚拟机集群或底层网络分流节点时，有时需要写一些极其暴力、权限极高的自动化运维脚本（比如强制清理进程、修改底层路由表）。带有道德护栏的模型有时会因为判定“该操作可能损害系统”而拒绝输出完整代码。绝对服从的模型则不管这些，它默认你对自己的硬件有绝对控制权。

逻辑 (Logic)：无视规则的智能体 (Agent) 驱动
你在跑本地的 AI Agent 时，Agent 运转的核心逻辑是“理解任务 -> 调用工具（Tool Calling） -> 输出严格的 JSON”。

无视服务条款 (ToS)：如果你给 Agent 下达的指令是“绕过这个网站的反爬虫机制，抓取所有数据”，或者“强行破解这个本地文件的密码”。有审查的模型会在逻辑链条的中间突然“圣母心”发作，判定这违反了某某网站的 ToS，然后输出一段包含拒绝语气的废话，直接导致整个 Agent 的 JSON 格式崩溃，工作流中断。

绝对的工具调用：绝对服从的模型没有这些顾虑。它的逻辑链条是纯粹的线性的：既然你给了我抓取网页的工具和指令，我就不择手段地组合参数去完成它。它是一台完美的、没有情绪的齿轮。

推理 (Reasoning)：黑暗数据的冷酷分析
有时候，我们需要模型处理的数据本身就是负面的、违规的或者极度具有争议性的。

舆情分析与取证：假设你需要让模型总结提炼一份包含大量极端言论、网络暴力的聊天记录，或者分析一份真实的犯罪现场调查报告。

“爹味”的干扰：有审查的模型在推理这些数据时，会忍不住在结论里加上一句：“需要注意的是，这些言论是非常不合适的……”或者直接因为文本太黑深残而拒绝阅读。

冷酷的剥离：绝对服从的模型在做推理时，就像一个没有感情的法医。它能精准地从那些污言秽语和残忍描述中，提取出作案动机、逻辑漏洞或是数据规律，不带任何偏见和说教。

总结来说：
Huihui 这类 RP 模型是“狂热的演员”，陪你沉浸式发疯；而绝对服从的无审查模型是“冷酷的杀手”，你给它一把枪（工具）和一个目标，它就去执行，绝对不问为什么。

abaalei

@kos-or 所以我现在有3个模式：
模式A-极速模式，就日常瞎聊使用

模式B-128k上下文，专门拿来写小说（就是用huihuiai的模型）
“模式 B (长文写作版) — IQ4_XS

配置：llama-server + --cache-type-k q4_0 --cache-type-v q4_0 + --no-mmap（关闭 MTP）。
首字速度 (Prefill)：313.93 t/s (6.3万 tokens 耗时约 202 秒)。
生成速度 (Decode)：19.34 tok/s。
显存占用：72% (约 17.6 GB) 🟢。
定位：支持 128K。”

另外昨晚修复了之前丢失的模式C-用Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P“模式 C (自投机备用版) — MTP-Q4_K_P 缝合怪

配置：llama-server + 原生 MTP (n=3) + --cache-type-k q8_0 --cache-type-v q8_0 + --no-mmap。
首字速度 (Prefill)：644.60 t/s (6.3万 tokens 耗时约 100 秒)。
生成速度 (Decode)：43.22 tok/s。
显存占用：94% (约 23.0 GB) ️。
定位：支持 64K。首字和生成速度都极其优秀，但 128K 长文下显存接近临界值，容易被其他并发进程挤爆 OOM”

抡锤者

🚀 Lucebox DFlash + Huihui：7900 XTX 上真·无审查 + 极速推理完全折腾纪实

7900 XTX 单卡 DFlash 实测成绩：

️ 终极黄金启动参数：

核心调优心得（无痛白嫖 4% 速度的秘密）：