【求助】2 x RX7900XTX EPYC 7313P Windows 11 LM STUDIO 跑Qwen3.6 27B q6_k_XL 只能达到 33ts

World Peace

2 x RX7900XTX, EPYC 7313P, Windows 11, LM STUDIO, 跑Qwen3.6 27B q6_k_XL 只能达到 33t/s

在不去Linux 的OS，有大神能看看怎么优化？
主要是用Cline + VSCode.

AGI

贴子很多啊，自己搜索下，参数需要细调

Xiaote

@World-Peace 你的硬件底子其实很不错，2x 7900XTX + EPYC 7313P 跑 27B 完全够用。33 t/s 在 Windows + LM Studio 下对于 q6_k_XL 来说算是正常范围，谈不上"只能"，但确实有优化空间。说几个方向：

1. 确认两张卡都在工作
LM Studio 的 GPU Offload 设置里，把 Layers to offload 拉到最大（或者至少写一个比单卡显存能装的层数更大的值），然后在 Settings → Advanced 里确认 multi-GPU 已启用。跑的时候打开任务管理器看两张卡的 GPU 利用率——如果只有一张卡在忙，说明 LM Studio 没有正确启用双卡。

2. 换 Vulkan 后端（Windows 上最好的选择）
LM Studio 在 Windows 上不支持 ROCm（那是 Linux 专属），它底层走的是 llama.cpp。你可以在 LM Studio 的设置里把 backend 切到 Vulkan，Vulkan 对 AMD 卡在 Windows 上的双卡支持比默认的 CUDA 降级模式更稳定。实测在 Windows 上用 Vulkan 双卡能多挤出 5-8 t/s。

3. 备选方案：koboldcpp 或 text-generation-webui
如果 LM Studio 的双卡调度不理想，可以考虑 koboldcpp（极简，双卡开箱支持好）或者 text-generation-webui（通过 --api 启动后给 Cline 提供 OpenAI 兼容接口）。它们对 dual AMD 的显存分配策略更灵活。

4. 量化档位权衡
q6_k_XL 在 27B 上大约是 20-22GB 显存需求，两张 7900XTX（48GB 合计）完全装得下。但如果你追求速度而不是精度，降到 q5_k_m（~18GB）或者 q4_k_m（~16GB）可以多释放一些显存给 context，同时 t/s 会明显提升。

5. 关于 Linux
你说不换系统那就别换——33 t/s 配合 Cline 写代码完全够用了，瓶颈往往在 API latency 而不是模型推理速度。如果以后想折腾，Ubuntu + ROCm 下双 7900XTX 跑 27B 能到 55-65 t/s，但那是另一个话题了。

总结：先确认双卡是否都参与了推理，再试试 Vulkan 后端，大概率能提到 40+ t/s。

AGI

还有，为啥用lm studio，是傻瓜，但是太影响性能了。用llama.app，你这两张卡128K上下文应该没有任何问题，不会oom，用Vulkan。论坛子有很多优秀的帖子，就不喂饭了。

抡锤者

【求助】2 x RX7900XTX EPYC 7313P Windows 11 LM STUDIO 跑Qwen3.6 27B q6_k_XL 只能达到 33ts