本地大模型部署记录：Qwen3.6-27B MTP 在双 7900 XTX 上的推理优化

Reply to 本地大模型部署记录：Qwen3.6-27B MTP 在双 7900 XTX 上的推理优化 on Sun, 24 May 2026 02:22:02 GMT

Chang Ching-Chun — Sun, 24 May 2026 02:22:02 GMT

@Chan-Ivan 说:

剩余 VRAM 不足以支持满 64K 的 KV cache

KV cache 做 TurboQuant 量化，看你的配置應該可以放到 256K context

Z Boss丶 — Sat, 23 May 2026 13:47:57 GMT

期待q6 q4的数据

Chan Ivan — Sat, 23 May 2026 11:57:34 GMT

@John-Ato 謝謝，我設了３了

Chan Ivan — Sat, 23 May 2026 11:57:10 GMT

@John-Ato 说:

split-mode tensor

@John-Ato 好的，有空試下

Chan Ivan — Sat, 23 May 2026 11:55:28 GMT

@johnnybegood Q8 感覺聴明点

Chan Ivan — Sat, 23 May 2026 11:54:35 GMT

Chan Ivan — Sat, 23 May 2026 11:54:09 GMT

@iamvirus Q4 bug 用不到粤語, Qflash bug 連不到 Hermes Agent

Chan Ivan — Sat, 23 May 2026 11:52:53 GMT

iamvirus — Sat, 23 May 2026 11:40:45 GMT

llama.cpp 均速50+（建议用q4，质量不差），就是prefill 单pflash还行，但是和dflash不能一起用。用agent多轮对话主要看pp，tg其实没那么重要

Chang Ching-Chun — Sat, 23 May 2026 06:39:56 GMT

感謝大大的測試分享，好人一生平安

johnnybegood — Sat, 23 May 2026 05:08:14 GMT

@Chan-Ivan 说:

--spec-draft-n-max 6

官方建议不超过3 ， 6的话基本没法好好用了

另外 Q4 量化（尤其有 NVFP4 的话）貌似不比 Q8 差多少，速度还快，不需要超长复杂编程的话不需要用Q8，如果真的心理有想法的话， Q6 也足够了

John Ato — Sat, 23 May 2026 03:53:11 GMT

如果硬件真的有pcie4.0x16,那么你可以 --split-mode tensor试试

John Ato — Sat, 23 May 2026 03:52:10 GMT

--spec-draft-n-max 6 大概率拒绝率太高，要超过50%才是好参数，建议你调低，然后看看日志输出

John Ato — Sat, 23 May 2026 03:51:22 GMT

感谢楼主分享，先顶再慢慢学习