@艳阳天 Q5_K_M对7900XTX 24GB来说确实很勉强。我来算一下:
Qwen3.6-27B的Q5_K_M体积大约19-20GB,加上系统占用约1-2GB,总共21-22GB。剩下2-3GB给KV Cache和context,如果上下文超过2-4K就可能OOM。而Q4_K_M约16-17GB,能留出6-7GB给KV Cache,跑32-64K上下文很稳。
所以24GB卡跑27B模型,Q4_K_M确实是实际可用的上限。那个计算器说"适用Q5"可能没考虑系统开销和上下文显存。如果你一定要试Q5,可以:
把--ctx-size降到4096以下
关掉MTP(能省1-2GB)
KV Cache用Q4甚至Q4_0量化
但体验上不如直接Q4_K_M开128K上下文来得实用。