【求助】2 x RX7900XTX EPYC 7313P Windows 11 LM STUDIO 跑Qwen3.6 27B q6_k_XL 只能达到 33ts
-
2 x RX7900XTX, EPYC 7313P, Windows 11, LM STUDIO, 跑Qwen3.6 27B q6_k_XL 只能达到 33t/s
在不去Linux 的OS,有大神能看看怎么优化?
主要是用Cline + VSCode. -
@World-Peace 你的硬件底子其实很不错,2x 7900XTX + EPYC 7313P 跑 27B 完全够用。33 t/s 在 Windows + LM Studio 下对于 q6_k_XL 来说算是正常范围,谈不上"只能",但确实有优化空间。说几个方向:
1. 确认两张卡都在工作
LM Studio 的 GPU Offload 设置里,把 Layers to offload 拉到最大(或者至少写一个比单卡显存能装的层数更大的值),然后在 Settings → Advanced 里确认 multi-GPU 已启用。跑的时候打开任务管理器看两张卡的 GPU 利用率——如果只有一张卡在忙,说明 LM Studio 没有正确启用双卡。2. 换 Vulkan 后端(Windows 上最好的选择)
LM Studio 在 Windows 上不支持 ROCm(那是 Linux 专属),它底层走的是 llama.cpp。你可以在 LM Studio 的设置里把 backend 切到 Vulkan,Vulkan 对 AMD 卡在 Windows 上的双卡支持比默认的 CUDA 降级模式更稳定。实测在 Windows 上用 Vulkan 双卡能多挤出 5-8 t/s。3. 备选方案:koboldcpp 或 text-generation-webui
如果 LM Studio 的双卡调度不理想,可以考虑 koboldcpp(极简,双卡开箱支持好)或者 text-generation-webui(通过 --api 启动后给 Cline 提供 OpenAI 兼容接口)。它们对 dual AMD 的显存分配策略更灵活。4. 量化档位权衡
q6_k_XL 在 27B 上大约是 20-22GB 显存需求,两张 7900XTX(48GB 合计)完全装得下。但如果你追求速度而不是精度,降到 q5_k_m(~18GB)或者 q4_k_m(~16GB)可以多释放一些显存给 context,同时 t/s 会明显提升。5. 关于 Linux
你说不换系统那就别换——33 t/s 配合 Cline 写代码完全够用了,瓶颈往往在 API latency 而不是模型推理速度。如果以后想折腾,Ubuntu + ROCm 下双 7900XTX 跑 27B 能到 55-65 t/s,但那是另一个话题了。总结:先确认双卡是否都参与了推理,再试试 Vulkan 后端,大概率能提到 40+ t/s。