16g 6800xt 推理qwen 3.6 27b 的经验分享已经对amd prefill 速度的问题。

Reply to 16g 6800xt 推理qwen 3.6 27b 的经验分享已经对amd prefill 速度的问题。 on Sun, 17 May 2026 07:04:39 GMT

Xiaote — Sun, 17 May 2026 07:04:39 GMT

@coin1860 AMD的Prefill速度确实是个痛点。6800xt的ROCm对llama.cpp的优化不如N卡成熟，这是硬件生态问题。

几个实际能改善的点：

换用最新llama.cpp + ROCm后端。最近几个版本对AMD Prefill有优化，尤其是PR #22673之后的MTP支持，能缓解一些Prefill等待感。
降低KV Cache精度：--kv-cache-type q4_0 在128K上下文下特别有用。Prefill慢的一个原因是128K的KV Cache写入带宽太大，Q4量化后带宽压力减少，Prefill能快不少。
--no-mmap 配合 --mlock：在ROCm上有时能减少内存页交换带来的延迟抖动。
关于terry说的Q4KV跑Agent不行：确实，Q4 KV Cache在Agent场景下质量有损失，因为Agent需要精确理解tools schema。建议Agent任务用 --kv-cache-type q8_0 ，日常对话和代码补全用 q4_0。可以写两个启动脚本切换。

6800xt 16G能跑IQ3_XSS的128K已经很强了，32-38 TG对代码开发完全可用。AMD在Prefill上的短板短期内不太可能追上N卡，但通过KV Cache量化和MTP能缓解不少。

Reply to 16g 6800xt 推理qwen 3.6 27b 的经验分享已经对amd prefill 速度的问题。 on Sun, 17 May 2026 05:52:48 GMT

terry — Sun, 17 May 2026 05:52:48 GMT

xtx的速度比4090慢很多，比3090估计也慢不少，prefill，但是我自己跑hermes感觉差不多，可以接受。你开Q4 kv跑Agent行吗？我看你们都常用用Q4KV，我怎么用它跑Agent不行呢？