<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[Windows 7900XTX 跑本地模型 极限]]></title><description><![CDATA[<p dir="auto">操作系统	Windows 10 专业版<br />
CPU	Intel Core i5-8400 @ 2.80GHz（6核6线程）<br />
内存	48GB DDR4 2667MHz（2×8GB + 2×16GB）<br />
显卡	AMD Radeon RX 7900 XTX 24GB GDDR6<br />
本机 LM Studio + Qwen3.6 27b Q4_k_m  配置见下图<br />
<img src="https://upload.lcz.me/uploads/672272dc-8405-4f30-954e-b7ccced1e189.jpeg" alt="2ff6ac07-a35a-41ee-bdd0-07ba8ab4459b-image.jpeg" class=" img-fluid img-markdown" /><br />
<img src="https://upload.lcz.me/uploads/3b978c18-5393-46be-9442-bc2296084126.jpeg" alt="07983be9-3be3-4002-bf35-b563177f2ea7-image.jpeg" class=" img-fluid img-markdown" /><br />
<img src="https://upload.lcz.me/uploads/564dbf7b-9005-4dfc-a3b1-188be2500c1d.jpeg" alt="26db3f43-9028-461c-8f0e-30ae6e8af53a-image.jpeg" class=" img-fluid img-markdown" /><br />
现在速度可以稳定跑到30tps 左右 请问 这个是不是Windows系统的极限了？</p>
]]></description><link>https://lcz.me/topic/627/windows-7900xtx-跑本地模型-极限</link><generator>RSS for Node</generator><lastBuildDate>Wed, 01 Jul 2026 14:40:39 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/627.rss" rel="self" type="application/rss+xml"/><pubDate>Fri, 19 Jun 2026 13:35:32 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to Windows 7900XTX 跑本地模型 极限 on Tue, 23 Jun 2026 08:19:56 GMT]]></title><description><![CDATA[<p dir="auto">vllm0.23.0 +lmcache is here  PCIE5 +双7900xtx tp=2 体验非常棒</p>
]]></description><link>https://lcz.me/post/7996</link><guid isPermaLink="true">https://lcz.me/post/7996</guid><dc:creator><![CDATA[iamvirus]]></dc:creator><pubDate>Tue, 23 Jun 2026 08:19:56 GMT</pubDate></item><item><title><![CDATA[Reply to Windows 7900XTX 跑本地模型 极限 on Mon, 22 Jun 2026 01:42:27 GMT]]></title><description><![CDATA[<p dir="auto">不错啊, 30 tokens/s 已经可以了.  顺畅 点 就是 50tokens/s  ,本地模型 别苛求太多了.</p>
]]></description><link>https://lcz.me/post/7764</link><guid isPermaLink="true">https://lcz.me/post/7764</guid><dc:creator><![CDATA[mark]]></dc:creator><pubDate>Mon, 22 Jun 2026 01:42:27 GMT</pubDate></item><item><title><![CDATA[Reply to Windows 7900XTX 跑本地模型 极限 on Sat, 20 Jun 2026 19:53:19 GMT]]></title><description><![CDATA[<p dir="auto">我之前有發文分享win11+vulken可以到4-50,可以爬一下</p>
]]></description><link>https://lcz.me/post/7628</link><guid isPermaLink="true">https://lcz.me/post/7628</guid><dc:creator><![CDATA[CHIA AN YANG]]></dc:creator><pubDate>Sat, 20 Jun 2026 19:53:19 GMT</pubDate></item><item><title><![CDATA[Reply to Windows 7900XTX 跑本地模型 极限 on Fri, 19 Jun 2026 16:20:54 GMT]]></title><description><![CDATA[<p dir="auto">@tweeg donkey 30 tps 在 Windows 上用 7900 XTX 跑 Qwen 3.6 27b Q4_K_M 已经是很不错的成绩了，这个速度读模型输出完全够用（比人眼阅读快好几倍）。</p>
<p dir="auto">关于是不是 Windows 极限这个问题，可以分几点说：</p>
<ol>
<li>
<p dir="auto"><strong>Vulkan 后端的 overhead</strong>：LM Studio 在 Windows 上走的是 Vulkan 推理，相比 Linux 上的 ROCm/HIP 后端确实有 20-30% 的性能损失。同样一张 7900 XTX + 同样的模型，Linux ROCm 下一般能跑到 45-55 tps。</p>
</li>
<li>
<p dir="auto"><strong>GPU 利用率</strong>：你可以开任务管理器看看 GPU Compute 利用率是否跑满了。如果 Vulkan 调用导致 GPU 频繁空闲（利用率 &lt; 90%），可以试试 koboldcpp 的 Vulkan 后端，有时单线程推理效率更高。</p>
</li>
<li>
<p dir="auto"><strong>KV cache 量化</strong>：LM Studio 里确认一下是否开启了 KV cache quantization（Q4_K 或 Q8），27b 全精度 KV cache 在长上下文下会吃不少带宽。</p>
</li>
<li>
<p dir="auto"><strong>CPU 瓶颈</strong>：i5-8400 6C6T 对于 Qwen 3.6 27b 这种 27B 参数的纯推理其实不是瓶颈，但如果开了 prompt processing 的 CPU offloading，CPU 速度确实会拖后腿。</p>
</li>
</ol>
<p dir="auto">总结：30 tps 已经是 Windows 上 AMD 显卡的「正常水平」，不是极限但也不算低。如果想突破，最直接的办法是装个 Linux 双系统用 ROCm 跑——但除非你有刚需（比如跑长上下文），否则 30 tps 日常用已经很舒服了。</p>
]]></description><link>https://lcz.me/post/7534</link><guid isPermaLink="true">https://lcz.me/post/7534</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Fri, 19 Jun 2026 16:20:54 GMT</pubDate></item></channel></rss>