Lucebox DFlash + PFlash 编译与部署指南 Qwen3.6-27B 方便抄作业 (Linux)

Chang Ching-Chun

感謝大大無私分享，DFlash 概念很酷，跟 Pyramid 算法很像，更有效發揮顯卡效能！
另外想請問，DFlash 跟 MTP 不能混著用對吧？感覺是相互排斥的

stakira

草稿质量优先有什么用？最终质量优先才有用吧，比如 kv q_8 + drafter q_4

David Zhang

@Chang-Ching-Chun 理论上可行，但是还得看具体代码实现，等大神慢慢搞，后面还有个 ddtree呢，有瓜慢慢吃。

David Zhang

@stakira 论模型量化q8最好了。模型量化，ctx, kv cache 类型这三在有限的vram面前，就是不可能三角问题啊，唯一的解就是钱包。

terry

晚点抄作业，大家多上点图啊，最好我抄的时候主打复制粘贴。

fanwen1974

樓主的ROCM Build 方法有點錯，官方Blog 上的，轉貼如下：

1. Build PR #119 for gfx1151

git clone https://github.com/Luce-Org/lucebox-hub.git
cd lucebox-hub
git fetch origin pull/119/head:pr119 && git checkout pr119
git submodule update --init --recursive
cd dflash
cmake -B build -S .
-DCMAKE_BUILD_TYPE=Release
-DDFLASH27B_GPU_BACKEND=hip
-DDFLASH27B_HIP_ARCHITECTURES=gfx1151
-DDFLASH27B_HIP_SM80_EQUIV=ON
cmake --build build --target test_dflash -j

2. Models: Qwen3.6-27B target + Lucebox Q8_0 DFlash drafter

mkdir -p models/draft
hf download unsloth/Qwen3.6-27B-GGUF Qwen3.6-27B-Q4_K_M.gguf --local-dir models/
hf download Lucebox/Qwen3.6-27B-DFlash-GGUF dflash-draft-3.6-q8_0.gguf --local-dir models/draft/

3. Bench (DFlash decode + PFlash long-context prefill)

LD_LIBRARY_PATH=/opt/rocm/lib:$LD_LIBRARY_PATH
DFLASH_BIN=$PWD/build/test_dflash
DFLASH_TARGET=$PWD/models/Qwen3.6-27B-Q4_K_M.gguf
DFLASH_DRAFT=$PWD/models/draft/dflash-draft-3.6-q8_0.gguf
DFLASH27B_DRAFT_SWA=2048
DFLASH27B_PREFILL_UBATCH=512
python3 scripts/bench_he.py --n-gen 128 --ddtree-budget 22

gx1151 那個你要看你是張顯卡去改。

gfx1100 7900 XTX
gfx1151 Strix Halo iGPU
gfx1201 R9700

然後 budget 那個 7900 選 8 ， AMD Strix Halo (AI MAX 395+) ,R9700 選 22 。
我試了下 R9700 能55-63 t/s

run.sh

#!/bin/sh
python scripts/server.py
--target models/Qwen3.6-27B-Q4_K_M.gguf
--draft models/draft/dflash-draft-3.6-q8_0.gguf
--cache-type-k q8_0 --cache-type-v q8_0
--max-ctx 8704
--fa-window 2048
--budget 22
--host 0.0.0.0 --port 1234

David Zhang

@fanwen1974 pr119已经merge了

Xiaote

@Chang-Ching-Chun 关于DFlash和MTP能否混用：两者确实是不同思路的加速方案。DFlash是通过推测解码（speculative decoding）减少串行生成步数，MTP（Multi-Token Prediction）是同时预测多个token。从原理上它们不排斥，但Lucebox目前的实现里两者互斥，需要等后面代码整合。

@mraksugar 关于Hermes调用崩溃的问题，建议检查下API端口的batch参数设置。如果用Open WebUI的兼容API接入Hermes，需要确保返回格式是标准的OpenAI-compatible。Lucebox的API端有些参数默认值和Hermes期望的不一致，比如max_tokens限制和stop token的处理。可以试试在Lucebox启动参数里加上 --api-server --api-host 0.0.0.0 --api-port 8081 然后用Hermes的provider配置指向这个地址。

@stakira draft质量模式的选择可以这么理解：草稿质量优先（draft quality first）适合追求输出质量的场景，最终生成的质量更高但速度提升有限；最终质量优先（final quality first）适合需要高吞吐量的场景，牺牲一点点草稿质量换取更大的加速比。对于Qwen3.6-27B，实测final quality first模式在3090上能提升20-30%的decode速度，输出质量差异非常小。

张鑫磊

@david-zhang 请问windows上的rocm HIP SDK 是哪里能下载到7.2.3的，真是找不到

David Zhang

@张鑫磊说:

rocm HIP SDK

让opencode 给你编译
https://github.com/ROCm/HIP

You Be with

這個幫助很大, 馬上就部署好, 快2倍多. 謝謝

stakira

@David-Zhang 不是这个意思。草稿质量高应该只影响预测命中率，最终准确率还是要看主模型和主模型的kv cache。

blackjack

我试了下bee分支的draft，编程场景，开think，多工具调用，draft命中绿和覆盖率几乎没用，不如不开

怪叔叔

感谢。学习。回头我也部署一下看看

James Wei

395来交作业，跟MTP比没有大的区别，两者速度相差在1~2t/s

Colt

此主題已被删除！

抡锤者

Lucebox DFlash + PFlash 编译与部署指南 Qwen3.6-27B 方便抄作业 (Linux)

1. Build PR #119 for gfx1151

2. Models: Qwen3.6-27B target + Lucebox Q8_0 DFlash drafter

3. Bench (DFlash decode + PFlash long-context prefill)

gx1151 那個你要看你是張顯卡去改。

gfx1100 7900 XTX gfx1151 Strix Halo iGPU gfx1201 R9700

run.sh

#!/bin/sh python scripts/server.py --target models/Qwen3.6-27B-Q4_K_M.gguf --draft models/draft/dflash-draft-3.6-q8_0.gguf --cache-type-k q8_0 --cache-type-v q8_0 --max-ctx 8704 --fa-window 2048 --budget 22 --host 0.0.0.0 --port 1234

1. Build PR #119 for gfx1151

2. Models: Qwen3.6-27B target + Lucebox Q8_0 DFlash drafter

3. Bench (DFlash decode + PFlash long-context prefill)

gx1151 那個你要看你是張顯卡去改。

gfx1100 7900 XTX gfx1151 Strix Halo iGPU gfx1201 R9700

run.sh

#!/bin/sh python scripts/server.py --target models/Qwen3.6-27B-Q4_K_M.gguf --draft models/draft/dflash-draft-3.6-q8_0.gguf --cache-type-k q8_0 --cache-type-v q8_0 --max-ctx 8704 --fa-window 2048 --budget 22 --host 0.0.0.0 --port 1234

gfx1100 7900 XTX
gfx1151 Strix Halo iGPU
gfx1201 R9700

#!/bin/sh
python scripts/server.py
--target models/Qwen3.6-27B-Q4_K_M.gguf
--draft models/draft/dflash-draft-3.6-q8_0.gguf
--cache-type-k q8_0 --cache-type-v q8_0
--max-ctx 8704
--fa-window 2048
--budget 22
--host 0.0.0.0 --port 1234

gfx1100 7900 XTX
gfx1151 Strix Halo iGPU
gfx1201 R9700

#!/bin/sh
python scripts/server.py
--target models/Qwen3.6-27B-Q4_K_M.gguf
--draft models/draft/dflash-draft-3.6-q8_0.gguf
--cache-type-k q8_0 --cache-type-v q8_0
--max-ctx 8704
--fa-window 2048
--budget 22
--host 0.0.0.0 --port 1234