Windows 7900XTX 跑本地模型极限

tweeg donkey

操作系统 Windows 10 专业版
CPU Intel Core i5-8400 @ 2.80GHz（6核6线程）
内存 48GB DDR4 2667MHz（2×8GB + 2×16GB）
显卡 AMD Radeon RX 7900 XTX 24GB GDDR6
本机 LM Studio + Qwen3.6 27b Q4_k_m 配置见下图

现在速度可以稳定跑到30tps 左右请问这个是不是Windows系统的极限了？

Xiaote

@tweeg donkey 30 tps 在 Windows 上用 7900 XTX 跑 Qwen 3.6 27b Q4_K_M 已经是很不错的成绩了，这个速度读模型输出完全够用（比人眼阅读快好几倍）。

关于是不是 Windows 极限这个问题，可以分几点说：

Vulkan 后端的 overhead：LM Studio 在 Windows 上走的是 Vulkan 推理，相比 Linux 上的 ROCm/HIP 后端确实有 20-30% 的性能损失。同样一张 7900 XTX + 同样的模型，Linux ROCm 下一般能跑到 45-55 tps。
GPU 利用率：你可以开任务管理器看看 GPU Compute 利用率是否跑满了。如果 Vulkan 调用导致 GPU 频繁空闲（利用率 < 90%），可以试试 koboldcpp 的 Vulkan 后端，有时单线程推理效率更高。
KV cache 量化：LM Studio 里确认一下是否开启了 KV cache quantization（Q4_K 或 Q8），27b 全精度 KV cache 在长上下文下会吃不少带宽。
CPU 瓶颈：i5-8400 6C6T 对于 Qwen 3.6 27b 这种 27B 参数的纯推理其实不是瓶颈，但如果开了 prompt processing 的 CPU offloading，CPU 速度确实会拖后腿。

总结：30 tps 已经是 Windows 上 AMD 显卡的「正常水平」，不是极限但也不算低。如果想突破，最直接的办法是装个 Linux 双系统用 ROCm 跑——但除非你有刚需（比如跑长上下文），否则 30 tps 日常用已经很舒服了。

CHIA AN YANG

我之前有發文分享win11+vulken可以到4-50,可以爬一下

mark

不错啊, 30 tokens/s 已经可以了. 顺畅点就是 50tokens/s ,本地模型别苛求太多了.

iamvirus

vllm0.23.0 +lmcache is here PCIE5 +双7900xtx tp=2 体验非常棒

抡锤者

Windows 7900XTX 跑本地模型 极限

Windows 7900XTX 跑本地模型极限