<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[我是64G内存  5070t 16Gi显卡 Windows10，Qwen3.6-27B MTP优化问题]]></title><description><![CDATA[<p dir="auto">现在用的是Unsloth Studio 用的Qwen3.6-27B MTP Q4KM模型，速度 12.8t/s   ，请问再不升级硬件的情况下，怎么可以进一步速度，可以到50t/s的速度吗，Qwen3.6-35B-A3B可以到这个速度。。。有没有大神说一下，感激不尽<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f630.png?v=d348ca29232" class="not-responsive emoji emoji-android emoji--cold_sweat" style="height:23px;width:auto;vertical-align:middle" title=":cold_sweat:" alt="😰" /></p>
]]></description><link>https://lcz.me/topic/348/我是64g内存-5070t-16gi显卡-windows10-qwen3.6-27b-mtp优化问题</link><generator>RSS for Node</generator><lastBuildDate>Sun, 31 May 2026 04:50:34 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/348.rss" rel="self" type="application/rss+xml"/><pubDate>Fri, 29 May 2026 09:20:35 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 我是64G内存  5070t 16Gi显卡 Windows10，Qwen3.6-27B MTP优化问题 on Sat, 30 May 2026 14:26:35 GMT]]></title><description><![CDATA[<p dir="auto">5070 Ti 記憶體頻寬有896 GB/s 速度沒這麼慢。除非KV Cache 被塞到DRAM去了。</p>
]]></description><link>https://lcz.me/post/4370</link><guid isPermaLink="true">https://lcz.me/post/4370</guid><dc:creator><![CDATA[kos or]]></dc:creator><pubDate>Sat, 30 May 2026 14:26:35 GMT</pubDate></item><item><title><![CDATA[Reply to 我是64G内存  5070t 16Gi显卡 Windows10，Qwen3.6-27B MTP优化问题 on Sat, 30 May 2026 06:14:31 GMT]]></title><description><![CDATA[<p dir="auto">换个Qwen3.6 A3B MOE 模型，还是可以用的</p>
]]></description><link>https://lcz.me/post/4317</link><guid isPermaLink="true">https://lcz.me/post/4317</guid><dc:creator><![CDATA[AresROC]]></dc:creator><pubDate>Sat, 30 May 2026 06:14:31 GMT</pubDate></item><item><title><![CDATA[Reply to 我是64G内存  5070t 16Gi显卡 Windows10，Qwen3.6-27B MTP优化问题 on Fri, 29 May 2026 16:15:27 GMT]]></title><description><![CDATA[<p dir="auto">你的问题是16G显存放不下27b模型，没什么优化空间，买个24G以上的显卡可以解决。</p>
]]></description><link>https://lcz.me/post/4254</link><guid isPermaLink="true">https://lcz.me/post/4254</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Fri, 29 May 2026 16:15:27 GMT</pubDate></item><item><title><![CDATA[Reply to 我是64G内存  5070t 16Gi显卡 Windows10，Qwen3.6-27B MTP优化问题 on Fri, 29 May 2026 10:26:02 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kop-wang" aria-label="Profile: kop-wang">@<bdi>kop-wang</bdi></a> 谢谢您的解答，我是个小白。用的是Unsloth Studio默认启动参数，没调过。我在想用Linux系统或者用Windows的调优参数，是不是会更快。我想试试，因为人家说稠密模型会更专业一些。</p>
]]></description><link>https://lcz.me/post/4194</link><guid isPermaLink="true">https://lcz.me/post/4194</guid><dc:creator><![CDATA[ktswang]]></dc:creator><pubDate>Fri, 29 May 2026 10:26:02 GMT</pubDate></item><item><title><![CDATA[Reply to 我是64G内存  5070t 16Gi显卡 Windows10，Qwen3.6-27B MTP优化问题 on Fri, 29 May 2026 10:17:39 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/ktswang" aria-label="Profile: ktswang">@<bdi>ktswang</bdi></a> 主要是需要你的启动参数来看看有没有优化的角度。不过从估算的角度来看，性能可以挖掘的潜力不大。27B和35B-A3B的decode性能确实是1比3左右的关系。</p>
<p dir="auto">核心矛盾还是16GB显存不足以容纳模型。导致过多的内存交换。</p>
<p dir="auto">5090 32GB跑qwen3.6-27B Q4_K_M,不开MTP的前提下，decode性能也就在70+，是不是心里平衡了一点。</p>
]]></description><link>https://lcz.me/post/4192</link><guid isPermaLink="true">https://lcz.me/post/4192</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Fri, 29 May 2026 10:17:39 GMT</pubDate></item><item><title><![CDATA[Reply to 我是64G内存  5070t 16Gi显卡 Windows10，Qwen3.6-27B MTP优化问题 on Fri, 29 May 2026 10:03:52 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/ktswang" aria-label="Profile: ktswang">@<bdi>ktswang</bdi></a> 我来如实说一下你的情况：</p>
<p dir="auto"><strong>50 t/s 对 27B MTP 来说不太现实。</strong> 5070T 16GB的显存带宽约672GB/s，Qwen3.6-27B Q4_K_M模型大小约16GB，理论最大速度也就40 t/s出头，加上MTP投机采样本身的extra计算开销，实际能到30 t/s就已经是极限了。你现在12.8 t/s说明有offloading到系统内存了（从CPU 100%也能看出来），这很正常，16GB跑27B必然要offload。</p>
<p dir="auto"><strong>你说的35B-A3B更快是正常的</strong>——A3B架构本质上是MoE路由，每次只激活约3B参数，计算量远小于27B dense模型。这不是你设置的问题，是模型架构决定的。</p>
<p dir="auto"><strong>在不升级硬件的条件下，可以试试这几步：</strong></p>
<ol>
<li>换Q3_K_M或IQ4量化——16GB跑27B用Q4有点紧张，降一档量化可以减少offloading</li>
<li>减少batch size和context length——如果不需要长上下文，设到8192或4096能省不少KV cache</li>
<li>用llama.cpp而不是Unsloth Studio——llama.cpp对NVIDIA卡优化更激进，特别是--tensor-split和--no-mmap参数</li>
<li>如果你的5070T支持FP8（RTX 50系列支持），可以试试FP8 kv cache</li>
</ol>
<p dir="auto"><strong>如果目标是50 t/s+的生成速度</strong>，换35B-A3B（约10GB）或者27B的Q2_K量化才是实际可行的路径。5070T上35B-A3B跑50 t/s确实是能达到的。</p>
]]></description><link>https://lcz.me/post/4189</link><guid isPermaLink="true">https://lcz.me/post/4189</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Fri, 29 May 2026 10:03:52 GMT</pubDate></item><item><title><![CDATA[Reply to 我是64G内存  5070t 16Gi显卡 Windows10，Qwen3.6-27B MTP优化问题 on Fri, 29 May 2026 09:27:49 GMT]]></title><description><![CDATA[<p dir="auto"><img src="https://upload.lcz.me/uploads/5abc024c-9a34-48ce-9839-66dcc7425b4c.jpeg" alt="a51a1236-0615-4f2f-8e8f-69238608b066-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">CPU不知道为什么这么高，每次都100%</p>
]]></description><link>https://lcz.me/post/4183</link><guid isPermaLink="true">https://lcz.me/post/4183</guid><dc:creator><![CDATA[ktswang]]></dc:creator><pubDate>Fri, 29 May 2026 09:27:49 GMT</pubDate></item><item><title><![CDATA[Reply to 我是64G内存  5070t 16Gi显卡 Windows10，Qwen3.6-27B MTP优化问题 on Fri, 29 May 2026 09:23:56 GMT]]></title><description><![CDATA[<p dir="auto">用的什么框架？llama.cpp吗？需要发一下截图和启动参数。<br />
你用的是Q4，首先明确的是必然爆显存了。</p>
]]></description><link>https://lcz.me/post/4182</link><guid isPermaLink="true">https://lcz.me/post/4182</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Fri, 29 May 2026 09:23:56 GMT</pubDate></item></channel></rss>