抡锤者

fanwen1974

@566656661 了解，可能我在臺灣，5900 跟 RTX 4500 差不多價錢，才有這個疑問。臺灣的 RTX Pro 都太貴。開個COMPUTEX ， RTX Pro 6000 本來 38 萬變 48 萬，神經病~

fanwen1974

這個不要死磕，個人認爲最要死磕的是 Qwen-3.6 27B稠密模型，因爲。。。。。智力才夠。。我主要用在編程，Qwen-3.6 35BA3B專家混合模型，感覺編程有點弱。當然只是一般使用還行吧。

fanwen1974

樓主的ROCM Build 方法有點錯，官方Blog 上的，轉貼如下：

1. Build PR #119 for gfx1151

git clone https://github.com/Luce-Org/lucebox-hub.git
cd lucebox-hub
git fetch origin pull/119/head:pr119 && git checkout pr119
git submodule update --init --recursive
cd dflash
cmake -B build -S .
-DCMAKE_BUILD_TYPE=Release
-DDFLASH27B_GPU_BACKEND=hip
-DDFLASH27B_HIP_ARCHITECTURES=gfx1151
-DDFLASH27B_HIP_SM80_EQUIV=ON
cmake --build build --target test_dflash -j

2. Models: Qwen3.6-27B target + Lucebox Q8_0 DFlash drafter

mkdir -p models/draft
hf download unsloth/Qwen3.6-27B-GGUF Qwen3.6-27B-Q4_K_M.gguf --local-dir models/
hf download Lucebox/Qwen3.6-27B-DFlash-GGUF dflash-draft-3.6-q8_0.gguf --local-dir models/draft/

3. Bench (DFlash decode + PFlash long-context prefill)

LD_LIBRARY_PATH=/opt/rocm/lib:$LD_LIBRARY_PATH
DFLASH_BIN=$PWD/build/test_dflash
DFLASH_TARGET=$PWD/models/Qwen3.6-27B-Q4_K_M.gguf
DFLASH_DRAFT=$PWD/models/draft/dflash-draft-3.6-q8_0.gguf
DFLASH27B_DRAFT_SWA=2048
DFLASH27B_PREFILL_UBATCH=512
python3 scripts/bench_he.py --n-gen 128 --ddtree-budget 22

gx1151 那個你要看你是張顯卡去改。

gfx1100 7900 XTX
gfx1151 Strix Halo iGPU
gfx1201 R9700

然後 budget 那個 7900 選 8 ， AMD Strix Halo (AI MAX 395+) ,R9700 選 22 。
我試了下 R9700 能55-63 t/s

run.sh

#!/bin/sh
python scripts/server.py
--target models/Qwen3.6-27B-Q4_K_M.gguf
--draft models/draft/dflash-draft-3.6-q8_0.gguf
--cache-type-k q8_0 --cache-type-v q8_0
--max-ctx 8704
--fa-window 2048
--budget 22
--host 0.0.0.0 --port 1234

抡锤者

fanwen1974

帖子