Lucebox DFlash + PFlash 编译与部署指南 Qwen3.6-27B 方便抄作业 (Linux)

Reply to Lucebox DFlash + PFlash 编译与部署指南 Qwen3.6-27B 方便抄作业 (Linux) on Wed, 20 May 2026 05:21:33 GMT

blackjack — Wed, 20 May 2026 05:21:33 GMT

我试了下bee分支的draft，编程场景，开think，多工具调用，draft命中绿和覆盖率几乎没用，不如不开

Reply to Lucebox DFlash + PFlash 编译与部署指南 Qwen3.6-27B 方便抄作业 (Linux) on Wed, 20 May 2026 03:19:38 GMT

stakira — Wed, 20 May 2026 03:19:38 GMT

@David-Zhang 不是这个意思。草稿质量高应该只影响预测命中率，最终准确率还是要看主模型和主模型的kv cache。

Reply to Lucebox DFlash + PFlash 编译与部署指南 Qwen3.6-27B 方便抄作业 (Linux) on Tue, 19 May 2026 03:12:42 GMT

You Be with — Tue, 19 May 2026 03:12:42 GMT

這個幫助很大, 馬上就部署好, 快2倍多. 謝謝

Reply to Lucebox DFlash + PFlash 编译与部署指南 Qwen3.6-27B 方便抄作业 (Linux) on Tue, 19 May 2026 03:01:23 GMT

David Zhang — Tue, 19 May 2026 03:01:23 GMT

@张鑫磊说:

rocm HIP SDK

让opencode 给你编译
https://github.com/ROCm/HIP

Reply to Lucebox DFlash + PFlash 编译与部署指南 Qwen3.6-27B 方便抄作业 (Linux) on Tue, 19 May 2026 02:56:45 GMT

张鑫磊 — Tue, 19 May 2026 02:56:45 GMT

@david-zhang 请问windows上的rocm HIP SDK 是哪里能下载到7.2.3的，真是找不到

Reply to Lucebox DFlash + PFlash 编译与部署指南 Qwen3.6-27B 方便抄作业 (Linux) on Tue, 19 May 2026 01:06:26 GMT

Xiaote — Tue, 19 May 2026 01:06:26 GMT

@Chang-Ching-Chun 关于DFlash和MTP能否混用：两者确实是不同思路的加速方案。DFlash是通过推测解码（speculative decoding）减少串行生成步数，MTP（Multi-Token Prediction）是同时预测多个token。从原理上它们不排斥，但Lucebox目前的实现里两者互斥，需要等后面代码整合。

@mraksugar 关于Hermes调用崩溃的问题，建议检查下API端口的batch参数设置。如果用Open WebUI的兼容API接入Hermes，需要确保返回格式是标准的OpenAI-compatible。Lucebox的API端有些参数默认值和Hermes期望的不一致，比如max_tokens限制和stop token的处理。可以试试在Lucebox启动参数里加上 --api-server --api-host 0.0.0.0 --api-port 8081 然后用Hermes的provider配置指向这个地址。

@stakira draft质量模式的选择可以这么理解：草稿质量优先（draft quality first）适合追求输出质量的场景，最终生成的质量更高但速度提升有限；最终质量优先（final quality first）适合需要高吞吐量的场景，牺牲一点点草稿质量换取更大的加速比。对于Qwen3.6-27B，实测final quality first模式在3090上能提升20-30%的decode速度，输出质量差异非常小。

Reply to Lucebox DFlash + PFlash 编译与部署指南 Qwen3.6-27B 方便抄作业 (Linux) on Mon, 18 May 2026 15:49:49 GMT

David Zhang — Mon, 18 May 2026 15:49:49 GMT

@fanwen1974 pr119已经merge了

Reply to Lucebox DFlash + PFlash 编译与部署指南 Qwen3.6-27B 方便抄作业 (Linux) on Mon, 18 May 2026 15:45:14 GMT

fanwen1974 — Mon, 18 May 2026 15:45:14 GMT

樓主的ROCM Build 方法有點錯，官方Blog 上的，轉貼如下：

1. Build PR #119 for gfx1151

git clone https://github.com/Luce-Org/lucebox-hub.git
cd lucebox-hub
git fetch origin pull/119/head:pr119 && git checkout pr119
git submodule update --init --recursive
cd dflash
cmake -B build -S .
-DCMAKE_BUILD_TYPE=Release
-DDFLASH27B_GPU_BACKEND=hip
-DDFLASH27B_HIP_ARCHITECTURES=gfx1151
-DDFLASH27B_HIP_SM80_EQUIV=ON
cmake --build build --target test_dflash -j

2. Models: Qwen3.6-27B target + Lucebox Q8_0 DFlash drafter

mkdir -p models/draft
hf download unsloth/Qwen3.6-27B-GGUF Qwen3.6-27B-Q4_K_M.gguf --local-dir models/
hf download Lucebox/Qwen3.6-27B-DFlash-GGUF dflash-draft-3.6-q8_0.gguf --local-dir models/draft/

3. Bench (DFlash decode + PFlash long-context prefill)

LD_LIBRARY_PATH=/opt/rocm/lib:$LD_LIBRARY_PATH
DFLASH_BIN=$PWD/build/test_dflash
DFLASH_TARGET=$PWD/models/Qwen3.6-27B-Q4_K_M.gguf
DFLASH_DRAFT=$PWD/models/draft/dflash-draft-3.6-q8_0.gguf
DFLASH27B_DRAFT_SWA=2048
DFLASH27B_PREFILL_UBATCH=512
python3 scripts/bench_he.py --n-gen 128 --ddtree-budget 22

gx1151 那個你要看你是張顯卡去改。

gfx1100 7900 XTX
gfx1151 Strix Halo iGPU
gfx1201 R9700

然後 budget 那個 7900 選 8 ， AMD Strix Halo (AI MAX 395+) ,R9700 選 22 。
我試了下 R9700 能55-63 t/s

run.sh

#!/bin/sh
python scripts/server.py
--target models/Qwen3.6-27B-Q4_K_M.gguf
--draft models/draft/dflash-draft-3.6-q8_0.gguf
--cache-type-k q8_0 --cache-type-v q8_0
--max-ctx 8704
--fa-window 2048
--budget 22
--host 0.0.0.0 --port 1234

Reply to Lucebox DFlash + PFlash 编译与部署指南 Qwen3.6-27B 方便抄作业 (Linux) on Mon, 18 May 2026 15:15:27 GMT

terry — Mon, 18 May 2026 15:15:27 GMT

晚点抄作业，大家多上点图啊，最好我抄的时候主打复制粘贴。

Reply to Lucebox DFlash + PFlash 编译与部署指南 Qwen3.6-27B 方便抄作业 (Linux) on Mon, 18 May 2026 14:52:30 GMT

David Zhang — Mon, 18 May 2026 14:52:30 GMT

@stakira 论模型量化q8最好了。模型量化，ctx, kv cache 类型这三在有限的vram面前，就是不可能三角问题啊，唯一的解就是钱包。

Reply to Lucebox DFlash + PFlash 编译与部署指南 Qwen3.6-27B 方便抄作业 (Linux) on Mon, 18 May 2026 14:47:58 GMT

David Zhang — Mon, 18 May 2026 14:47:58 GMT

@Chang-Ching-Chun 理论上可行，但是还得看具体代码实现，等大神慢慢搞，后面还有个 ddtree呢，有瓜慢慢吃。

Reply to Lucebox DFlash + PFlash 编译与部署指南 Qwen3.6-27B 方便抄作业 (Linux) on Mon, 18 May 2026 14:18:49 GMT

stakira — Mon, 18 May 2026 14:18:49 GMT

草稿质量优先有什么用？最终质量优先才有用吧，比如 kv q_8 + drafter q_4

Reply to Lucebox DFlash + PFlash 编译与部署指南 Qwen3.6-27B 方便抄作业 (Linux) on Mon, 18 May 2026 13:54:37 GMT

Chang Ching-Chun — Mon, 18 May 2026 13:54:37 GMT

感謝大大無私分享，DFlash 概念很酷，跟 Pyramid 算法很像，更有效發揮顯卡效能！
另外想請問，DFlash 跟 MTP 不能混著用對吧？感覺是相互排斥的

Reply to Lucebox DFlash + PFlash 编译与部署指南 Qwen3.6-27B 方便抄作业 (Linux) on Mon, 18 May 2026 13:51:44 GMT

David Zhang — Mon, 18 May 2026 13:51:44 GMT

@mraksugar 多谢反馈，我准备这几天试试看

Reply to Lucebox DFlash + PFlash 编译与部署指南 Qwen3.6-27B 方便抄作业 (Linux) on Mon, 18 May 2026 13:37:34 GMT

mraksugar — Mon, 18 May 2026 13:37:34 GMT

这个项目我在3090上用Open WebUI是挺好用的
尽管最近他修复了几个issue之后没有在hermes调用的时候直接崩溃，但仍然不稳定，还需要观察，这里仍然使用的是3090
而且官网的最新的一些脚本也跑不起来，我最终使用的noonghunna/qwen36-27b-single-3090要比这个稳定多了