7900 XTX + Qwen3.6-27B：Ubuntu + ROCm / Vulkan / MTP 64/128/256K 全部實測整理

qiao zhifeng

今天试了下vulkan，qwen27b q4，显卡7900xtx，64k上下文，跑hermes agent，prefill 吊打rocm环境。都是从0开始加载50k和60k的提示词，完全不像ai和社区说的vulkan的首字慢。
vulkan的：prompt processing, n_tokens = 62284, progress = 1.00, t = 108.65 s / 573.23 tokens per second
rocm的：prompt processing, n_tokens = 52604, progress = 1.00, t = 314.20 s / 167.42 tokens per second
参数： -mg 0
--temp 0.3
--ctx-size 65536
-b 2048
-ub 2048
--top-p 0.8
--min-p 0.05
--repeat-penalty 1.1
--cache-type-k q8_0
--cache-type-v q8_0
--flash-attn on
--cache-ram -1 --ctx-checkpoints 32 --cache-idle-slots
--parallel 1
--cont-batching
--timeout 600

566656661

@qiao-zhifeng

本來Vulkan的對A卡的支持度就好過ROCm的, reddit上面基本一堆人常駐vulkan

別太看重ROCm帶來的加速吧, 社區支援跟優化差太遠了

stxpnet

我目前自认为的最佳配置,3090 24G显卡,开了思考,思考预算是3072tokens,最大上下文配置为168K,通过了测试.我的K V CACHE都是Q8. 总用时70多秒.我觉得还行

xiaoyoutiao

@agi 新手请教，Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf我在huggingface找了一圈也没有找到，你在哪里下载? 在HauhauCS的主页下看到Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf 没有MTP版本

AGI

@xiaoyoutiao

奇怪，我也找不到了
搜索了下下载命令，文件还能下载：wget https://huggingface.co/crotron/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP/resolve/main/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf

xiaoyoutiao

感谢@AGI https://huggingface.co/crotron/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP/tree/main 下面的模型都在，下载了

AGI

@xiaoyoutiao

自己部署llm很大的原因是这个无审查版本，现在的gpt和claude，稍微越界，就不回答了。可惜现在qwen智商一般，用的qwopus一样写代码垃圾，等以后新版本吧。

williamlouis

我也测试了。这套方案是可行的。

抡锤者

7900 XTX + Qwen3.6-27B：Ubuntu + ROCm / Vulkan / MTP 64/128/256K 全部實測整理