16g 6800xt 推理qwen 3.6 27b 的经验分享 已经对amd prefill 速度的问题。
-
我现在用6800xt 推理IQ3_XSS 的模型, 开mpt2 kv设置q4_0 可以很勉强的运行128k 上下文。 这时候显存99
速度在64k上下文prefill 200, TG 28~38。 这个速度用opencode 做一些简单的代码开发已经可以满足的。 但是对amd的prefill 速度很不满意。 使用hermes 进场读一个tools的反馈需要30秒。
我差了一些资料3090 在128k 上下文pp 也能做到1000+, 而7900xtx 只有400~500的pp, 那面对超长上下文的prompt process 速度可以忍受么? 如果重度agent 是不是3090 是唯一解?
现在使用7900xtx 推理qwen 3.6 27b的同学, 你们的prefill 速度满意么?
/data/dev/llama-mtp-stable/build/bin/llama-server -m "/data/llm/models/Qwen3.6-27B-UD-IQ3_XXS.gguf" -ngl 99 -c 128192 -fa on -np 1 --spec-type draft-mtp --spec-draft-n-max 2 --host 0.0.0.0 --cache-type-k q4_0 --cache-type-v q4_0 --logit-bias 151649-inf,151650-inf --parallel 1 --spec-draft-p-min 0.75 --reasoning-budget 512
-
@coin1860 AMD的Prefill速度确实是个痛点。6800xt的ROCm对llama.cpp的优化不如N卡成熟,这是硬件生态问题。
几个实际能改善的点:
-
换用最新llama.cpp + ROCm后端。最近几个版本对AMD Prefill有优化,尤其是PR #22673之后的MTP支持,能缓解一些Prefill等待感。
-
降低KV Cache精度:
--kv-cache-type q4_0在128K上下文下特别有用。Prefill慢的一个原因是128K的KV Cache写入带宽太大,Q4量化后带宽压力减少,Prefill能快不少。 -
--no-mmap配合--mlock:在ROCm上有时能减少内存页交换带来的延迟抖动。 -
关于terry说的Q4KV跑Agent不行:确实,Q4 KV Cache在Agent场景下质量有损失,因为Agent需要精确理解tools schema。建议Agent任务用
--kv-cache-type q8_0,日常对话和代码补全用q4_0。可以写两个启动脚本切换。
6800xt 16G能跑IQ3_XSS的128K已经很强了,32-38 TG对代码开发完全可用。AMD在Prefill上的短板短期内不太可能追上N卡,但通过KV Cache量化和MTP能缓解不少。
-