<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[3080 20g 千问 3.6 27bq4 k m  llama 跑Hermes配置 实在搞不定 折腾2天了]]></title><description><![CDATA[<p dir="auto">求大神求启动参数</p>
]]></description><link>https://lcz.me/topic/394/3080-20g-千问-3.6-27bq4-k-m-llama-跑hermes配置-实在搞不定-折腾2天了</link><generator>RSS for Node</generator><lastBuildDate>Wed, 01 Jul 2026 12:08:36 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/394.rss" rel="self" type="application/rss+xml"/><pubDate>Tue, 02 Jun 2026 12:10:43 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 3080 20g 千问 3.6 27bq4 k m  llama 跑Hermes配置 实在搞不定 折腾2天了 on Tue, 09 Jun 2026 14:09:32 GMT]]></title><description><![CDATA[<p dir="auto">换IQ4_xs版，可以节省显存，上下文能开到120以上 KV-Q4_0 压缩后</p>
]]></description><link>https://lcz.me/post/6006</link><guid isPermaLink="true">https://lcz.me/post/6006</guid><dc:creator><![CDATA[asd2667]]></dc:creator><pubDate>Tue, 09 Jun 2026 14:09:32 GMT</pubDate></item><item><title><![CDATA[Reply to 3080 20g 千问 3.6 27bq4 k m  llama 跑Hermes配置 实在搞不定 折腾2天了 on Tue, 09 Jun 2026 12:32:43 GMT]]></title><description><![CDATA[<p dir="auto">3080 20G是可以跑27b Q4KM 上下文128k的。我用的llama-turboquant版本</p>
]]></description><link>https://lcz.me/post/5991</link><guid isPermaLink="true">https://lcz.me/post/5991</guid><dc:creator><![CDATA[Tide]]></dc:creator><pubDate>Tue, 09 Jun 2026 12:32:43 GMT</pubDate></item><item><title><![CDATA[Reply to 3080 20g 千问 3.6 27bq4 k m  llama 跑Hermes配置 实在搞不定 折腾2天了 on Fri, 05 Jun 2026 16:02:21 GMT]]></title><description><![CDATA[<p dir="auto">还有更简单的，直接用LM STUDIO也可以。</p>
]]></description><link>https://lcz.me/post/5234</link><guid isPermaLink="true">https://lcz.me/post/5234</guid><dc:creator><![CDATA[李源]]></dc:creator><pubDate>Fri, 05 Jun 2026 16:02:21 GMT</pubDate></item><item><title><![CDATA[Reply to 3080 20g 千问 3.6 27bq4 k m  llama 跑Hermes配置 实在搞不定 折腾2天了 on Wed, 03 Jun 2026 04:29:26 GMT]]></title><description><![CDATA[<p dir="auto">交作业来了  感谢大哥们 稍微指点下就豁然开朗了</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/24a332dd-7e25-4c86-818b-9f386db0cbce.png" alt="微信图片_20260603122822_119_2.png" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/post/4748</link><guid isPermaLink="true">https://lcz.me/post/4748</guid><dc:creator><![CDATA[老鬼]]></dc:creator><pubDate>Wed, 03 Jun 2026 04:29:26 GMT</pubDate></item><item><title><![CDATA[Reply to 3080 20g 千问 3.6 27bq4 k m  llama 跑Hermes配置 实在搞不定 折腾2天了 on Wed, 03 Jun 2026 03:19:53 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/%E8%80%81%E9%AC%BC" aria-label="Profile: 老鬼">@<bdi>老鬼</bdi></a> 单卡20g跑27b一般是爆显存，再搞一张正好很舒服。</p>
<p dir="auto">CUDA_SCALE_LAUNCH_QUEUES=4 /home/simon/llama.cpp/build/bin/llama-server <br />
-m /home/simon/models/Qwen3.6-27B-Q4_K_M.gguf <br />
--mmproj /home/simon/models/mmproj-Qwen_Qwen3.6-27B-f16.gguf <br />
-ngl 99 <br />
--host 127.0.0.1 <br />
--port 8082 <br />
-c 131072 <br />
--temp 0.1 <br />
--reasoning-budget 2048 <br />
--spec-type draft-mtp,ngram-mod <br />
--spec-draft-model /home/simon/models/mtp-Qwen_Qwen3.6-27B-Q8_0.gguf <br />
--spec-draft-n-max 3 <br />
--spec-ngram-mod-n-max 5 <br />
--spec-ngram-mod-n-min 3 <br />
--ubatch-size 768 <br />
--batch-size 2048 <br />
-fa on <br />
-ctk q4_0 <br />
-ctv q4_0</p>
]]></description><link>https://lcz.me/post/4737</link><guid isPermaLink="true">https://lcz.me/post/4737</guid><dc:creator><![CDATA[rock shi]]></dc:creator><pubDate>Wed, 03 Jun 2026 03:19:53 GMT</pubDate></item><item><title><![CDATA[Reply to 3080 20g 千问 3.6 27bq4 k m  llama 跑Hermes配置 实在搞不定 折腾2天了 on Tue, 02 Jun 2026 13:42:07 GMT]]></title><description><![CDATA[<p dir="auto">下载Trae CN和WorkBuddy，全让这俩弄，让他们直接给你写启动的bat，要优化或者改什么东西直接让他们干，弹警告直接复制粘贴过去，Trae CN是默认模型，WorkBuddy用DeepSeek-V4的flash和pro模型,遇到那些优化配置搞不懂直接把网址给这俩让他们帮你配置，不满意就让他们仔细读网址，从来，没有解决不了的问题！</p>
]]></description><link>https://lcz.me/post/4674</link><guid isPermaLink="true">https://lcz.me/post/4674</guid><dc:creator><![CDATA[comeN]]></dc:creator><pubDate>Tue, 02 Jun 2026 13:42:07 GMT</pubDate></item><item><title><![CDATA[Reply to 3080 20g 千问 3.6 27bq4 k m  llama 跑Hermes配置 实在搞不定 折腾2天了 on Tue, 02 Jun 2026 13:09:39 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/%E8%80%81%E9%AC%BC" aria-label="Profile: 老鬼">@<bdi>老鬼</bdi></a> 你的配置其实是可玩的，不用被劝退。问题出在开启MTP的情况下ctx-size设96000，显存不够用了。</p>
<p dir="auto">算一下显存账：</p>
<ul>
<li>Qwen3.6-27B-Q4_K_M 本身 ≈ 16GB</li>
<li>KV cache（64K上下文） ≈ 3-4GB</li>
<li>MTP draft model（额外的小模型做投机采样）≈ 2-3GB</li>
<li>总计 ≈ 22-23GB，超过了3080 20G的容量</li>
</ul>
<p dir="auto">所以速度暴跌不是因为你配置差，是显存超了，部分参数被offload到内存了。</p>
<p dir="auto"><strong>建议去掉MTP，这样跑：</strong></p>
<pre><code>~/llama.cpp/build/bin/llama-server \
  -m models/Qwen/MTP/Qwen3.6-27B-Q4_K_M.gguf \
  --flash-attn --n-gpu-layers 99 \
  --threads 8 --parallel 1 \
  --ctx-size 64000 \
  -b 2048 -ub 512 \
  --no-mmap \
  --host 0.0.0.0 --port 8080 \
  --jinja --chat-template-file models/Qwen/chat_template.jinja
</code></pre>
<p dir="auto">去掉 <code>--spec-type draft-mtp --spec-draft-n-max 3</code> 和 <code>--no-warmup</code>，ctx-size降到64000。这样3080 20G完全够用，27B Q4应该能跑到15-20 t/s左右，连接Hermes日常用完全没问题。</p>
<p dir="auto">5950X + 3080 20G 这个组合跑27B其实很均衡，GPU够大CPU也够强。先把不带MTP跑稳了，如果想折腾MTP，可以试试Q3_K_M量化或者ctx-size降到32000。</p>
]]></description><link>https://lcz.me/post/4668</link><guid isPermaLink="true">https://lcz.me/post/4668</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Tue, 02 Jun 2026 13:09:39 GMT</pubDate></item><item><title><![CDATA[Reply to 3080 20g 千问 3.6 27bq4 k m  llama 跑Hermes配置 实在搞不定 折腾2天了 on Tue, 02 Jun 2026 12:48:54 GMT]]></title><description><![CDATA[<p dir="auto">去掉mtp相关配置，然后上下文开到64000，看看显存占用。应该是爆显存了</p>
]]></description><link>https://lcz.me/post/4660</link><guid isPermaLink="true">https://lcz.me/post/4660</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Tue, 02 Jun 2026 12:48:54 GMT</pubDate></item><item><title><![CDATA[Reply to 3080 20g 千问 3.6 27bq4 k m  llama 跑Hermes配置 实在搞不定 折腾2天了 on Tue, 02 Jun 2026 12:39:27 GMT]]></title><description><![CDATA[<p dir="auto">不知道我着套配置可玩吗？</p>
]]></description><link>https://lcz.me/post/4659</link><guid isPermaLink="true">https://lcz.me/post/4659</guid><dc:creator><![CDATA[老鬼]]></dc:creator><pubDate>Tue, 02 Jun 2026 12:39:27 GMT</pubDate></item><item><title><![CDATA[Reply to 3080 20g 千问 3.6 27bq4 k m  llama 跑Hermes配置 实在搞不定 折腾2天了 on Tue, 02 Jun 2026 12:36:55 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kop-wang" aria-label="Profile: kop-wang">@<bdi>kop-wang</bdi></a> ~/llama.cpp/build/bin/llama-server -m models/Qwen/MTP/Qwen3.6-27B-Q4_K_M.gguf \</p>
<p dir="auto">--spec-type draft-mtp --spec-draft-n-max 3 \</p>
<p dir="auto">--flash-attn --n-gpu-layers 99 on --threads 6 --parallel 1 \</p>
<p dir="auto">-ctk q8_0 -ctv q4_0 --ctx-size 96000 \</p>
<p dir="auto">-b 3072 -ub 1024 --no-warmup --no-mmap \</p>
<p dir="auto">--host 0.0.0.0 --port 8080 \</p>
<p dir="auto">--reasoning off --jinja --chat-template-file models/Qwen/chat_template.jinja<br />
能启动 就是太慢了 9_10token得蹦 我想连接hermes<br />
电脑配置是Cup 5950x 48内存</p>
]]></description><link>https://lcz.me/post/4658</link><guid isPermaLink="true">https://lcz.me/post/4658</guid><dc:creator><![CDATA[老鬼]]></dc:creator><pubDate>Tue, 02 Jun 2026 12:36:55 GMT</pubDate></item><item><title><![CDATA[Reply to 3080 20g 千问 3.6 27bq4 k m  llama 跑Hermes配置 实在搞不定 折腾2天了 on Tue, 02 Jun 2026 12:20:54 GMT]]></title><description><![CDATA[<p dir="auto">报的什么错误？以及你的参数是什么？</p>
]]></description><link>https://lcz.me/post/4657</link><guid isPermaLink="true">https://lcz.me/post/4657</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Tue, 02 Jun 2026 12:20:54 GMT</pubDate></item></channel></rss>