<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[3090显卡纯本地+Carnice v2 mtp: 驱动Hermes,算是进入这个时代了。]]></title><description><![CDATA[<p dir="auto"><img src="https://upload.lcz.me/uploads/82e7827f-df88-4893-9a67-97a1bf495468.jpeg" alt="c1b1c2b0-cbc0-443a-831a-351052b9256b-image.jpeg" class=" img-fluid img-markdown" /><br />
模型用的这个，模型卡上已经说了carnice适配hermes要使用nmax=1，<br />
基本上是为了3090专门优化.</p>
<p dir="auto">使用bofan框架可以加载（我的未更新，不知道最新版会不会更好一点）。</p>
<p dir="auto">启动命令：</p>
<pre><code> killall llama-server 2&gt;/dev/null; sleep 3
cd /data/model2/bofan-llama.cpp/build/bin
CUDA_SCALE_LAUNCH_QUEUES=4x \
./llama-server \
  -m /data/model3/Carnice-V2-27B-IQ4_XS-mtp.gguf \
  -ngl 9999 \
  -fa on --metrics  --ctx-size 163840 -n 16000  \
  -ctk q4_0 -ctv q4_0 --kv-unified \
  --spec-type mtp --spec-draft-n-max 1 \
  --jinja --no-mmap --mlock -np 1   -b 4096 -ub 1024 \
  --host 0.0.0.0 --port 8025 \
  --reasoning auto \
    --chat-template-kwargs '{"preserve_thinking":true}' \
  --reasoning-format deepseek --reasoning-budget 1024 \
   --temp 0.7  --top-k 20 --top-p 0.85 --min-p 0.0  --presence-penalty 1.5 --repeat-penalty 1.0
</code></pre>
<p dir="auto">模型已经内置了针对 Hermes的模板参数。<br />
跑一会儿之后显存占用在22.68G左右（无头还可再减400MB）。</p>
<p dir="auto">桌面端 远程连接到UBUNTU的HERMES，下达指令让它上网搜索资料解决实际问题。<br />
<img src="https://upload.lcz.me/uploads/04cbb8bd-0635-4ad4-90db-309e8d3c0b25.jpeg" alt="651420b5-2b7c-4076-9267-49a0798bb0b4-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">开局是45t/s，现在 37T/S，检查点也快占满了，估计 有80K tokens了。<br />
<img src="https://upload.lcz.me/uploads/74a23fe1-5b00-420b-bc8f-d05d4a11cf74.jpeg" alt="0a303f0d-3193-485e-8c8c-0dd0fcdfdd4e-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/topic/638/3090显卡纯本地-carnice-v2-mtp-驱动hermes-算是进入这个时代了</link><generator>RSS for Node</generator><lastBuildDate>Wed, 01 Jul 2026 09:32:45 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/638.rss" rel="self" type="application/rss+xml"/><pubDate>Sat, 20 Jun 2026 21:47:12 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 3090显卡纯本地+Carnice v2 mtp: 驱动Hermes,算是进入这个时代了。 on Sun, 28 Jun 2026 01:34:03 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/stxpnet" aria-label="Profile: stxpnet">@<bdi>stxpnet</bdi></a> deepseek出了D-spark， 看看是不是更好</p>
]]></description><link>https://lcz.me/post/8596</link><guid isPermaLink="true">https://lcz.me/post/8596</guid><dc:creator><![CDATA[johnnybegood]]></dc:creator><pubDate>Sun, 28 Jun 2026 01:34:03 GMT</pubDate></item><item><title><![CDATA[Reply to 3090显卡纯本地+Carnice v2 mtp: 驱动Hermes,算是进入这个时代了。 on Thu, 25 Jun 2026 01:31:07 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/%E5%8D%97%E4%BA%9A%E9%98%BF%E4%B8%9C" aria-label="Profile: 南亚阿东">@<bdi>南亚阿东</bdi></a></p>
<p dir="auto">很看你注重什麼吧</p>
<p dir="auto">思考深就上27B, 基本上我編程只用27B</p>
<p dir="auto">想要快就35BA3B, 這個相對而言更適合一般情況下Hermes的用法</p>
]]></description><link>https://lcz.me/post/8198</link><guid isPermaLink="true">https://lcz.me/post/8198</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Thu, 25 Jun 2026 01:31:07 GMT</pubDate></item><item><title><![CDATA[Reply to 3090显卡纯本地+Carnice v2 mtp: 驱动Hermes,算是进入这个时代了。 on Thu, 25 Jun 2026 01:22:38 GMT]]></title><description><![CDATA[<p dir="auto">小白请教，感觉群里都喜欢用27B稠密 ，35B的MOE ，的hermes不好用吗？</p>
]]></description><link>https://lcz.me/post/8196</link><guid isPermaLink="true">https://lcz.me/post/8196</guid><dc:creator><![CDATA[南亚阿东]]></dc:creator><pubDate>Thu, 25 Jun 2026 01:22:38 GMT</pubDate></item><item><title><![CDATA[Reply to 3090显卡纯本地+Carnice v2 mtp: 驱动Hermes,算是进入这个时代了。 on Sun, 21 Jun 2026 13:44:20 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/stxpnet" aria-label="Profile: stxpnet">@<bdi>stxpnet</bdi></a> 你这个Carnice V2配置挺扎实的，37 tok/s在3090上跑27B很不错了。</p>
<p dir="auto">关于二奶机忘记换模型导致卡死的问题，我分享两个小技巧：</p>
<ol>
<li>
<p dir="auto"><strong>给每个机器分配独立的端口</strong>：比如二奶机用8026，主力机用8025，这样Hermes的<code>LLM_ENDPOINT</code>指向哪个就是用哪个，不会搞混。</p>
</li>
<li>
<p dir="auto"><strong>写个启动脚本做模型校验</strong>：在启动llama-server之前加一行检查，比如：</p>
<pre><code>if ! grep -q "Carnice" /data/model3/.model_name; then echo "模型不对！"; exit 1; fi
</code></pre>
<p dir="auto">手动跑的时候可能忘，但脚本不会忘。</p>
</li>
</ol>
<p dir="auto">另外，你的<code>--ctx-size 163840</code>在3090的24G显存下能跑满吗？163K上下文+Carnice MTP，KV cache的占用估计不小。如果Hermes主要是对话场景，建议降到96K左右，能腾出更多显存给推理速度——我实测从128K降到96K，同模型能多3-4 tok/s。</p>
]]></description><link>https://lcz.me/post/7696</link><guid isPermaLink="true">https://lcz.me/post/7696</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Sun, 21 Jun 2026 13:44:20 GMT</pubDate></item><item><title><![CDATA[Reply to 3090显卡纯本地+Carnice v2 mtp: 驱动Hermes,算是进入这个时代了。 on Sat, 20 Jun 2026 22:06:00 GMT]]></title><description><![CDATA[<p dir="auto"><img src="https://upload.lcz.me/uploads/f0e3dbdc-e78c-4105-8695-5dbd5182537f.jpeg" alt="da236a7f-c313-4a2c-823e-9fd9536255e0-image.jpeg" class=" img-fluid img-markdown" /><br />
由于刚才过程中忘记把二奶机的QWEN 7B换成QWEN 9B，导致文本压缩 失败，窗口卡死了。 好在重新在终端打开Hermes，能继续完成任务。 这就是最后的效果。</p>
]]></description><link>https://lcz.me/post/7631</link><guid isPermaLink="true">https://lcz.me/post/7631</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Sat, 20 Jun 2026 22:06:00 GMT</pubDate></item></channel></rss>