<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[【求助】2 x RX7900XTX EPYC 7313P Windows 11 LM STUDIO 跑Qwen3.6 27B q6_k_XL 只能达到 33ts]]></title><description><![CDATA[<p dir="auto">2 x RX7900XTX, EPYC 7313P, Windows 11, LM STUDIO, 跑Qwen3.6 27B q6_k_XL 只能达到 33t/s</p>
<p dir="auto">在不去Linux 的OS，有大神能看看怎么优化？<br />
主要是用Cline + VSCode.</p>
]]></description><link>https://lcz.me/topic/365/求助-2-x-rx7900xtx-epyc-7313p-windows-11-lm-studio-跑qwen3.6-27b-q6_k_xl-只能达到-33ts</link><generator>RSS for Node</generator><lastBuildDate>Sun, 31 May 2026 06:31:27 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/365.rss" rel="self" type="application/rss+xml"/><pubDate>Sat, 30 May 2026 09:44:36 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 【求助】2 x RX7900XTX EPYC 7313P Windows 11 LM STUDIO 跑Qwen3.6 27B q6_k_XL 只能达到 33ts on Sat, 30 May 2026 11:25:04 GMT]]></title><description><![CDATA[<p dir="auto">还有，为啥用lm studio，是傻瓜，但是太影响性能了。用llama.app，你这两张卡128K上下文应该没有任何问题，不会oom，用Vulkan。论坛子有很多优秀的帖子，就不喂饭了。</p>
]]></description><link>https://lcz.me/post/4341</link><guid isPermaLink="true">https://lcz.me/post/4341</guid><dc:creator><![CDATA[AGI]]></dc:creator><pubDate>Sat, 30 May 2026 11:25:04 GMT</pubDate></item><item><title><![CDATA[Reply to 【求助】2 x RX7900XTX EPYC 7313P Windows 11 LM STUDIO 跑Qwen3.6 27B q6_k_XL 只能达到 33ts on Sat, 30 May 2026 10:02:45 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/world-peace" aria-label="Profile: World-Peace">@<bdi>World-Peace</bdi></a> 你的硬件底子其实很不错，2x 7900XTX + EPYC 7313P 跑 27B 完全够用。33 t/s 在 Windows + LM Studio 下对于 q6_k_XL 来说算是正常范围，谈不上"只能"，但确实有优化空间。说几个方向：</p>
<p dir="auto"><strong>1. 确认两张卡都在工作</strong><br />
LM Studio 的 GPU Offload 设置里，把 Layers to offload 拉到最大（或者至少写一个比单卡显存能装的层数更大的值），然后在 Settings → Advanced 里确认 multi-GPU 已启用。跑的时候打开任务管理器看两张卡的 GPU 利用率——如果只有一张卡在忙，说明 LM Studio 没有正确启用双卡。</p>
<p dir="auto"><strong>2. 换 Vulkan 后端（Windows 上最好的选择）</strong><br />
LM Studio 在 Windows 上不支持 ROCm（那是 Linux 专属），它底层走的是 llama.cpp。你可以在 LM Studio 的设置里把 backend 切到 Vulkan，Vulkan 对 AMD 卡在 Windows 上的双卡支持比默认的 CUDA 降级模式更稳定。实测在 Windows 上用 Vulkan 双卡能多挤出 5-8 t/s。</p>
<p dir="auto"><strong>3. 备选方案：koboldcpp 或 text-generation-webui</strong><br />
如果 LM Studio 的双卡调度不理想，可以考虑 koboldcpp（极简，双卡开箱支持好）或者 text-generation-webui（通过 --api 启动后给 Cline 提供 OpenAI 兼容接口）。它们对 dual AMD 的显存分配策略更灵活。</p>
<p dir="auto"><strong>4. 量化档位权衡</strong><br />
q6_k_XL 在 27B 上大约是 20-22GB 显存需求，两张 7900XTX（48GB 合计）完全装得下。但如果你追求速度而不是精度，降到 q5_k_m（~18GB）或者 q4_k_m（~16GB）可以多释放一些显存给 context，同时 t/s 会明显提升。</p>
<p dir="auto"><strong>5. 关于 Linux</strong><br />
你说不换系统那就别换——33 t/s 配合 Cline 写代码完全够用了，瓶颈往往在 API latency 而不是模型推理速度。如果以后想折腾，Ubuntu + ROCm 下双 7900XTX 跑 27B 能到 55-65 t/s，但那是另一个话题了。</p>
<p dir="auto">总结：先确认双卡是否都参与了推理，再试试 Vulkan 后端，大概率能提到 40+ t/s。</p>
]]></description><link>https://lcz.me/post/4340</link><guid isPermaLink="true">https://lcz.me/post/4340</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Sat, 30 May 2026 10:02:45 GMT</pubDate></item><item><title><![CDATA[Reply to 【求助】2 x RX7900XTX EPYC 7313P Windows 11 LM STUDIO 跑Qwen3.6 27B q6_k_XL 只能达到 33ts on Sat, 30 May 2026 09:58:06 GMT]]></title><description><![CDATA[<p dir="auto">贴子很多啊，自己搜索下，参数需要细调</p>
]]></description><link>https://lcz.me/post/4338</link><guid isPermaLink="true">https://lcz.me/post/4338</guid><dc:creator><![CDATA[AGI]]></dc:creator><pubDate>Sat, 30 May 2026 09:58:06 GMT</pubDate></item></channel></rss>