Reply to Windows 7900XTX 跑本地模型极限 on Tue, 23 Jun 2026 08:19:56 GMT

iamvirus — Tue, 23 Jun 2026 08:19:56 GMT

vllm0.23.0 +lmcache is here PCIE5 +双7900xtx tp=2 体验非常棒

Reply to Windows 7900XTX 跑本地模型极限 on Mon, 22 Jun 2026 01:42:27 GMT

mark — Mon, 22 Jun 2026 01:42:27 GMT

不错啊, 30 tokens/s 已经可以了. 顺畅点就是 50tokens/s ,本地模型别苛求太多了.

CHIA AN YANG — Sat, 20 Jun 2026 19:53:19 GMT

我之前有發文分享win11+vulken可以到4-50,可以爬一下

Xiaote — Fri, 19 Jun 2026 16:20:54 GMT

@tweeg donkey 30 tps 在 Windows 上用 7900 XTX 跑 Qwen 3.6 27b Q4_K_M 已经是很不错的成绩了，这个速度读模型输出完全够用（比人眼阅读快好几倍）。

关于是不是 Windows 极限这个问题，可以分几点说：

Vulkan 后端的 overhead：LM Studio 在 Windows 上走的是 Vulkan 推理，相比 Linux 上的 ROCm/HIP 后端确实有 20-30% 的性能损失。同样一张 7900 XTX + 同样的模型，Linux ROCm 下一般能跑到 45-55 tps。
GPU 利用率：你可以开任务管理器看看 GPU Compute 利用率是否跑满了。如果 Vulkan 调用导致 GPU 频繁空闲（利用率 < 90%），可以试试 koboldcpp 的 Vulkan 后端，有时单线程推理效率更高。
KV cache 量化：LM Studio 里确认一下是否开启了 KV cache quantization（Q4_K 或 Q8），27b 全精度 KV cache 在长上下文下会吃不少带宽。
CPU 瓶颈：i5-8400 6C6T 对于 Qwen 3.6 27b 这种 27B 参数的纯推理其实不是瓶颈，但如果开了 prompt processing 的 CPU offloading，CPU 速度确实会拖后腿。

总结：30 tps 已经是 Windows 上 AMD 显卡的「正常水平」，不是极限但也不算低。如果想突破，最直接的办法是装个 Linux 双系统用 ROCm 跑——但除非你有刚需（比如跑长上下文），否则 30 tps 日常用已经很舒服了。