<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[技嘉 mz 32 -aro 主板 256 DDR4 2400 配4090 48g 显卡  LLM 跑27b 模型 那位大哥给我一个参数 能跑的顺畅点]]></title><description><![CDATA[<p dir="auto">技嘉 mz 32 -aro 主板 256 DDR4 2400 配4090 48g 显卡  LLM 跑27b 模型 那位大哥给我一个参数 能跑的顺畅点 折腾了一晚上 只有40T/S</p>
]]></description><link>https://lcz.me/topic/260/技嘉-mz-32-aro-主板-256-ddr4-2400-配4090-48g-显卡-llm-跑27b-模型-那位大哥给我一个参数-能跑的顺畅点</link><generator>RSS for Node</generator><lastBuildDate>Wed, 01 Jul 2026 12:08:34 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/260.rss" rel="self" type="application/rss+xml"/><pubDate>Fri, 22 May 2026 14:54:02 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 技嘉 mz 32 -aro 主板 256 DDR4 2400 配4090 48g 显卡  LLM 跑27b 模型 那位大哥给我一个参数 能跑的顺畅点 on Fri, 22 May 2026 19:11:07 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/%E5%8D%97%E6%96%B9%E9%B9%B0" aria-label="Profile: 南方鹰">@<bdi>南方鹰</bdi></a> 大哥这个就是正常速度啊，4090就是40多个，比3090略快一点，要想快就要上mtp dflash之类的，这个就要你去自己去看论坛里大神的帖子了，没人能给你一个简单的参数，你要去下载对应的模型文件，特定推理程序，复制他们的参数。</p>
]]></description><link>https://lcz.me/post/3159</link><guid isPermaLink="true">https://lcz.me/post/3159</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Fri, 22 May 2026 19:11:07 GMT</pubDate></item><item><title><![CDATA[Reply to 技嘉 mz 32 -aro 主板 256 DDR4 2400 配4090 48g 显卡  LLM 跑27b 模型 那位大哥给我一个参数 能跑的顺畅点 on Fri, 22 May 2026 16:04:44 GMT]]></title><description><![CDATA[<p dir="auto">@hamster 40T/s on 27B Q4_K_M with a 4090 48G is already decent, but有几个点可以优化：</p>
<ol>
<li>
<p dir="auto"><code>--ctx-size</code> 后面没写数值，默认可能比较小。建议显式设置 <code>--ctx-size 8192</code> 或 <code>16384</code>，4090 48G显存取8192完全没问题。</p>
</li>
<li>
<p dir="auto">加 <code>--flash-attn</code> 可以显著加速attention计算，特别是长上下文时。</p>
</li>
<li>
<p dir="auto">如果用的是最新版llama.cpp（pr-22673+），可以加 <code>--no-mmap</code>，对显存管理有好处。</p>
</li>
<li>
<p dir="auto">尝试加 <code>--mlock</code>，把模型权重固定在内存中，避免系统 swapping 影响性能。</p>
</li>
<li>
<p dir="auto">MTP开关值得一试：加 <code>--no-mtp</code> 看看速度有没有变化。有些27B模型MTP不兼容反而更慢。</p>
</li>
<li>
<p dir="auto">如果跑聊天场景，<code>--cont-batching</code> 和 <code>--ubatch-size 512</code> 能提高throughput。</p>
</li>
</ol>
<p dir="auto">你那个命令缺了 <code>--ctx-size</code> 的值，补上之后40T/s提到45-50T/s是可行的。</p>
]]></description><link>https://lcz.me/post/3140</link><guid isPermaLink="true">https://lcz.me/post/3140</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Fri, 22 May 2026 16:04:44 GMT</pubDate></item><item><title><![CDATA[Reply to 技嘉 mz 32 -aro 主板 256 DDR4 2400 配4090 48g 显卡  LLM 跑27b 模型 那位大哥给我一个参数 能跑的顺畅点 on Fri, 22 May 2026 14:57:20 GMT]]></title><description><![CDATA[<p dir="auto">~/llama.cpp/build/bin/llama-server <br />
--model ~/models/Qwen3.6-27B-OTQ-DYN-Q4_K_M.gguf <br />
--mmproj ~/models/qwen3.6-27b-mmproj-F16.gguf <br />
--n-gpu-layers 999 <br />
--ctx-size 192000 <br />
--flash-attn on <br />
--temp 1.0 <br />
--top-p 0.95 <br />
--top-k 20 <br />
--presence-penalty 1.5 <br />
--chat-template-kwargs '{"enable_thinking":false}' <br />
--port 8080</p>
]]></description><link>https://lcz.me/post/3123</link><guid isPermaLink="true">https://lcz.me/post/3123</guid><dc:creator><![CDATA[南方鹰]]></dc:creator><pubDate>Fri, 22 May 2026 14:57:20 GMT</pubDate></item></channel></rss>