這個不要死磕,個人認爲最要死磕的是 Qwen-3.6 27B稠密模型 ,因爲。。。。。智力才夠。。我主要用在編程,Qwen-3.6 35BA3B專家混合模型,感覺編程有點弱。當然只是一般使用還行吧。
fanwen1974
-
问完去睡觉,下半个月死磕QWEN 3.6 35B A3B. -
Lucebox DFlash + PFlash 编译与部署指南 Qwen3.6-27B 方便抄作业 (Linux)樓主的ROCM Build 方法有點錯,官方Blog 上的,轉貼如下:
1. Build PR #119 for gfx1151
git clone https://github.com/Luce-Org/lucebox-hub.git
cd lucebox-hub
git fetch origin pull/119/head:pr119 && git checkout pr119
git submodule update --init --recursive
cd dflash
cmake -B build -S .
-DCMAKE_BUILD_TYPE=Release
-DDFLASH27B_GPU_BACKEND=hip
-DDFLASH27B_HIP_ARCHITECTURES=gfx1151
-DDFLASH27B_HIP_SM80_EQUIV=ON
cmake --build build --target test_dflash -j2. Models: Qwen3.6-27B target + Lucebox Q8_0 DFlash drafter
mkdir -p models/draft
hf download unsloth/Qwen3.6-27B-GGUF Qwen3.6-27B-Q4_K_M.gguf --local-dir models/
hf download Lucebox/Qwen3.6-27B-DFlash-GGUF dflash-draft-3.6-q8_0.gguf --local-dir models/draft/3. Bench (DFlash decode + PFlash long-context prefill)
LD_LIBRARY_PATH=/opt/rocm/lib:$LD_LIBRARY_PATH
DFLASH_BIN=$PWD/build/test_dflash
DFLASH_TARGET=$PWD/models/Qwen3.6-27B-Q4_K_M.gguf
DFLASH_DRAFT=$PWD/models/draft/dflash-draft-3.6-q8_0.gguf
DFLASH27B_DRAFT_SWA=2048
DFLASH27B_PREFILL_UBATCH=512
python3 scripts/bench_he.py --n-gen 128 --ddtree-budget 22gx1151 那個你要看你是張顯卡去改。
gfx1100 7900 XTX
gfx1151 Strix Halo iGPU
gfx1201 R9700然後 budget 那個 7900 選 8 , AMD Strix Halo (AI MAX 395+) ,R9700 選 22 。
我試了下 R9700 能55-63 t/srun.sh
#!/bin/sh
python scripts/server.py
--target models/Qwen3.6-27B-Q4_K_M.gguf
--draft models/draft/dflash-draft-3.6-q8_0.gguf
--cache-type-k q8_0 --cache-type-v q8_0
--max-ctx 8704
--fa-window 2048
--budget 22
--host 0.0.0.0 --port 1234