<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[3090单卡终极测试，opencode(oh-my-opencode) 一个LLM分饰多角。]]></title><description><![CDATA[<p dir="auto">今天测试配置</p>
<pre><code>  #编程比较 好的 ，使用beellama3.2预览版，支持华为kv cache格式 注意：
      #模型卡明确 67% 是无思考模式刷的，做 SWE-bench 类评测时建议关思考；做真实复杂调试时再开，二者不要混用同一套采样预算预期
      # --ctx-size 131072 \ 
       #--rope-scaling yarn --yarn-orig-ctx 32768 --rope-scale 4 \ 配套使用，这是按模型卡上提示的加入yarn扩展命令，如果不按倍数添加，可能导致注意力漂移。
     killall llama3-server 2&gt;/dev/null; sleep 3
     killall llama-server 2&gt;/dev/null; sleep 3
   export LD_LIBRARY_PATH=/data/models/beellma616-kv.cpp/build/bin:$LD_LIBRARY_PATH
       /data/model2/beellma616-kv.cpp/build/bin/llama-server \
      --host 0.0.0.0 --port 8025 \
      -m /data/model3/qowpus-coder616/Qwopus3.6-27B-Coder-MTP-Q5_K_M.gguf \
      --mmproj /data/models/Qwopus3.6-27B-Coder-mmproj-F32.gguf \
      --spec-type draft-mtp \
      --spec-draft-n-max 3 \
      --api-key "sk-my-tnt-secret-key-1234567890" \
      -ngl all \
      -n 10240 \
      --ctx-size 131072 \
       --rope-scaling yarn --yarn-orig-ctx 32768 --rope-scale 4 \
      -b 2048 -ub 256 \
      -np 1 \
      --kv-unified \
      --cache-type-k kvarn5 \
      --cache-type-v kvarn5 \
      --cache-ram 16384  --mlock \
      --no-host \
      --jinja \
      --chat-template-kwargs '{"preserve_thinking":true}' \
      --chat-template-file /data/model2/chat_template-fixed-v20.jinja \
     --no-warmup --reasoning on -fa on  --reasoning-format deepseek --reasoning-budget 2048 \
     --temp 0.6 --top-p 0.96 --top-k 20 --min-p 0.05
</code></pre>
<p dir="auto">还是同一套中国象棋的提示词，在opencode里面按F2把模型全部换成qwen 27B Q5KM.<br />
(我想让它们共享同一个上下文）<br />
<img src="https://upload.lcz.me/uploads/9b17b8ed-d9a6-448f-a7bf-bca2b38c5d58.jpeg" alt="93799654-09e0-4dd2-9693-6f9b0e8ef61d-image.jpeg" class=" img-fluid img-markdown" /><br />
<img src="https://upload.lcz.me/uploads/c0b16d90-e9ea-492c-95d1-7cba11af4587.jpeg" alt="50e811c2-c13f-4ef2-aa3a-f6734a3d4ef5-image.jpeg" class=" img-fluid img-markdown" /><br />
这个配置开局显存就只剩500M，突然有点后悔开视觉了。<br />
在它跑到大概60%的时候，用了62.5K上下文了 ，速度已经从59T/S 掉到40T/S，  感觉这个Q5K 在3090上就只能跑10万左右的上下文，并且新建项目时 还不能用0.6的温度，用0.63或者高一点（但是高温写出来的程序大多数有BUG）。。。。</p>
<p dir="auto">中间过程会有英文穿插，这是正常的，正是v20那个模板文件发挥了作用，让IDE可以toolcall和模型交互，这可以节省token.本地显卡也要节省token，否则上下文爆炸会变卡。</p>
]]></description><link>https://lcz.me/topic/633/3090单卡终极测试-opencode-oh-my-opencode-一个llm分饰多角</link><generator>RSS for Node</generator><lastBuildDate>Wed, 01 Jul 2026 16:54:30 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/633.rss" rel="self" type="application/rss+xml"/><pubDate>Sat, 20 Jun 2026 03:14:07 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 3090单卡终极测试，opencode(oh-my-opencode) 一个LLM分饰多角。 on Sat, 20 Jun 2026 15:27:56 GMT]]></title><description><![CDATA[<p dir="auto">综合这么多天的实践，我最终留了 两套配置：</p>
<pre><code>620-23pm 最终给hermes用的
                  killall llama3-server 2&gt;/dev/null; sleep 3
     killall llama-server 2&gt;/dev/null; sleep 3
   export LD_LIBRARY_PATH=/data/models/beellma616-kv.cpp/build/bin:$LD_LIBRARY_PATH
       /data/model2/beellma616-kv.cpp/build/bin/llama-server \
      --host 0.0.0.0 --port 8025 \
      -m /data/models/Qwopus3.6-27B-v2-MTP-IQ4_XS.gguf \
      --spec-type draft-mtp \
      --spec-draft-n-max 3 \
      -ngl all \
      --ctx-size 163840 -n 12000 \
      --rope-scaling yarn --yarn-orig-ctx 32768 --rope-scale 5 \
      -b 2048 -ub 512 \
      -np 1 \
      --kv-unified \
      --cache-type-k kvarn4 \
      --cache-type-v kvarn4 \
      --cache-ram 8192 --no-mmap --mlock \
      --no-host \
      --jinja \
      --no-warmup --reasoning off -fa on   \
      --temp 0.7 --top-p 0.83 --top-k 20 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0
</code></pre>
<pre><code>  /data/model2/Qwopus3.6-27B-Coder-MTP-Q4_K_M.gguf 质量可能更高一些 前期60T/S
                    killall llama3-server 2&gt;/dev/null; sleep 3
     killall llama-server 2&gt;/dev/null; sleep 3
   export LD_LIBRARY_PATH=/data/models/beellma616-kv.cpp/build/bin:$LD_LIBRARY_PATH
       /data/model2/beellma616-kv.cpp/build/bin/llama-server \
      --host 0.0.0.0 --port 8025 \
      -m /data/model2/Qwopus3.6-27B-Coder-MTP-Q4_K_M.gguf \
      --spec-type draft-mtp \
      --spec-draft-n-max 3 \
      -ngl all \
      --ctx-size 163840 -n 16000 \
      --rope-scaling yarn --yarn-orig-ctx 32768 --rope-scale 5 \
      -b 2048 -ub 512 \
      -np 1 \
      --kv-unified \
      --cache-type-k kvarn4 \
      --cache-type-v kvarn4 \
      --cache-ram 10240 --no-mmap --mlock \
      --no-host \
      --jinja \
      --no-warmup --reasoning off -fa on   \
      --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.05 --repeat-penalty 1.0    
</code></pre>
]]></description><link>https://lcz.me/post/7624</link><guid isPermaLink="true">https://lcz.me/post/7624</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Sat, 20 Jun 2026 15:27:56 GMT</pubDate></item><item><title><![CDATA[Reply to 3090单卡终极测试，opencode(oh-my-opencode) 一个LLM分饰多角。 on Sat, 20 Jun 2026 12:31:50 GMT]]></title><description><![CDATA[<p dir="auto">Opencode沒辦法自動Compact這個也算一個敗筆了, 試試看Cline吧</p>
<p dir="auto">不過理論上也不應該叫主Agent去做這種事吧</p>
<p dir="auto">通常都是跟主Agent敲定好每個Subagent要做什麽然後叫它們自己安排, Agent負責協調跟報告就好</p>
]]></description><link>https://lcz.me/post/7610</link><guid isPermaLink="true">https://lcz.me/post/7610</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Sat, 20 Jun 2026 12:31:50 GMT</pubDate></item><item><title><![CDATA[Reply to 3090单卡终极测试，opencode(oh-my-opencode) 一个LLM分饰多角。 on Sat, 20 Jun 2026 12:08:34 GMT]]></title><description><![CDATA[<p dir="auto">3090显卡支撑不了2000行的单文件，烂尾了，反思一下，以后如果要用它写小项目，单文件一定不能超过500-800行，否则它会把一个文件放到全部上下文里面去写，造成循环或者崩溃。<br />
以前 用trae写出来能用的代码最多也就1200行。</p>
]]></description><link>https://lcz.me/post/7607</link><guid isPermaLink="true">https://lcz.me/post/7607</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Sat, 20 Jun 2026 12:08:34 GMT</pubDate></item><item><title><![CDATA[Reply to 3090单卡终极测试，opencode(oh-my-opencode) 一个LLM分饰多角。 on Sat, 20 Jun 2026 11:29:43 GMT]]></title><description><![CDATA[<p dir="auto"><img src="https://upload.lcz.me/uploads/5cf41f17-150d-4134-aade-bc14928109bd.jpeg" alt="a667ab43-0c12-48cb-85a1-ae6c5e22022d-image.jpeg" class=" img-fluid img-markdown" /> 经过几次调整参数和修改策略，勉强跑到这个程度。 其中我在60%上下文的时候应该寻找时机压缩一次的。 opencode不像hermes那样有自动压缩机制。 现在压缩一下看能不能救回来</p>
]]></description><link>https://lcz.me/post/7605</link><guid isPermaLink="true">https://lcz.me/post/7605</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Sat, 20 Jun 2026 11:29:43 GMT</pubDate></item><item><title><![CDATA[Reply to 3090单卡终极测试，opencode(oh-my-opencode) 一个LLM分饰多角。 on Sat, 20 Jun 2026 10:41:08 GMT]]></title><description><![CDATA[<p dir="auto">上下文爆了一次（168K），现在我将上下文增加到200K，ubatch减小为256，再重试，<br />
<img src="https://upload.lcz.me/uploads/779bf62e-6d8f-41fa-b733-be2936bf09c7.jpeg" alt="71ac9fd7-8710-4f97-a7a2-09c515e34e1c-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">又产生循环了，强行中止，让plan executor从发生 错误的位置开始继续干活。</p>
]]></description><link>https://lcz.me/post/7599</link><guid isPermaLink="true">https://lcz.me/post/7599</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Sat, 20 Jun 2026 10:41:08 GMT</pubDate></item><item><title><![CDATA[Reply to 3090单卡终极测试，opencode(oh-my-opencode) 一个LLM分饰多角。 on Sat, 20 Jun 2026 10:27:45 GMT]]></title><description><![CDATA[<p dir="auto"><img src="https://upload.lcz.me/uploads/d9ad27d4-2cdf-4db2-bbd9-1a67df7ce56b.jpeg" alt="21d28e79-aa8e-4b76-8d36-758d1eaa357a-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">目前opencode里显示的上下文 已经来到150K了，llama.cpp这边居然没报错，nvtop显示还是20.79G显存占用，稳如老狗。 不过刚才有留意到llama.cpp的日志 提示删除检查点。 看来上下文 已经开始滚动覆盖了！</p>
<p dir="auto">生成速度的话，目前到158K上下文了，我观察的是在45-60T/S之间反复横跳。</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/0f2c0449-9379-4b15-b367-08679a139a37.jpeg" alt="4cc34a49-a97e-42b0-b84d-441c25ab90ff-image.jpeg" class=" img-fluid img-markdown" /><br />
另外就是这个lazy grammer的彩色日志老是出现，不知道有无影响 。</p>
]]></description><link>https://lcz.me/post/7597</link><guid isPermaLink="true">https://lcz.me/post/7597</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Sat, 20 Jun 2026 10:27:45 GMT</pubDate></item><item><title><![CDATA[Reply to 3090单卡终极测试，opencode(oh-my-opencode) 一个LLM分饰多角。 on Sat, 20 Jun 2026 10:01:36 GMT]]></title><description><![CDATA[<p dir="auto">此时上下文已经到100K了，<br />
我看了一下它的计划文档，做得有点过于详细了。</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/0fc36fcf-28ce-4f5d-ab3b-fd0eb20c9cad.jpeg" alt="d672d166-84de-4168-9a87-f82a3a228244-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">在TRAE那个全栈AI程序员那些，就不是这样的。<br />
目前还不知道超过131K限制了会怎样。opencode的配置里面并没写入模型的上下文大小。<br />
<img src="https://upload.lcz.me/uploads/82eb8452-7757-4b93-90ec-0cafacc35146.jpeg" alt="51b91707-ac59-41cc-a885-1c69cbfcdc7a-image.jpeg" class=" img-fluid img-markdown" /><br />
现在提示我输入命令开始工作。<img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f602.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--joy" style="height:23px;width:auto;vertical-align:middle" title=":joy:" alt="😂" /> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f602.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--joy" style="height:23px;width:auto;vertical-align:middle" title=":joy:" alt="😂" /> <img src="https://lcz.me/assets/plugins/nodebb-plugin-emoji/emoji/android/1f602.png?v=9a87c0a6150" class="not-responsive emoji emoji-android emoji--joy" style="height:23px;width:auto;vertical-align:middle" title=":joy:" alt="😂" /> ，我选择休息3分钟，让显卡降降温。目前显卡占用还是20.8G，剩余3.2G</p>
]]></description><link>https://lcz.me/post/7595</link><guid isPermaLink="true">https://lcz.me/post/7595</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Sat, 20 Jun 2026 10:01:36 GMT</pubDate></item><item><title><![CDATA[Reply to 3090单卡终极测试，opencode(oh-my-opencode) 一个LLM分饰多角。 on Sat, 20 Jun 2026 09:53:48 GMT]]></title><description><![CDATA[<p dir="auto"><img src="https://upload.lcz.me/uploads/3de1381a-e3c2-4dde-ab13-562143c2b608.jpeg" alt="ef804795-ae08-48ff-ae45-799d2e5bfe49-image.jpeg" class=" img-fluid img-markdown" /><br />
这才把计划做好，让我选择要不要 高精度需求Review,这不是实际工程，我肯定选直接开工啊！</p>
]]></description><link>https://lcz.me/post/7594</link><guid isPermaLink="true">https://lcz.me/post/7594</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Sat, 20 Jun 2026 09:53:48 GMT</pubDate></item><item><title><![CDATA[Reply to 3090单卡终极测试，opencode(oh-my-opencode) 一个LLM分饰多角。 on Sat, 20 Jun 2026 09:52:37 GMT]]></title><description><![CDATA[<p dir="auto"><img src="https://upload.lcz.me/uploads/e994d501-237d-4048-aeb1-c34f6d7fcc72.jpeg" alt="036e35b7-61ec-4f89-8bd5-c9b231fac541-image.jpeg" class=" img-fluid img-markdown" /><br />
已经1小时了，如果把它看作agent的话，应该已经到了颅内高 潮了吧？目前应该是项目使用参数最多的时候，但它的算力是有限的，后期如果opencode那边的计算需要没有降下来，随着参数的增加，LLM的生成 速度应该要开始衰减了。</p>
]]></description><link>https://lcz.me/post/7593</link><guid isPermaLink="true">https://lcz.me/post/7593</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Sat, 20 Jun 2026 09:52:37 GMT</pubDate></item><item><title><![CDATA[Reply to 3090单卡终极测试，opencode(oh-my-opencode) 一个LLM分饰多角。 on Sat, 20 Jun 2026 09:32:14 GMT]]></title><description><![CDATA[<p dir="auto"><img src="https://upload.lcz.me/uploads/3366c41a-e4d4-46bd-b238-08e649cfb28f.jpeg" alt="916ab044-b3f6-49e3-a957-f836a6ebdd20-image.jpeg" class=" img-fluid img-markdown" /><br />
这个提示似乎表明它上网去搜索了借鉴了AI算法：很好，这对实践很有意义啊，不要老是在270亿Q4量化的参数里面去找知识，善用外部资源才是王道 。</p>
]]></description><link>https://lcz.me/post/7592</link><guid isPermaLink="true">https://lcz.me/post/7592</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Sat, 20 Jun 2026 09:32:14 GMT</pubDate></item><item><title><![CDATA[Reply to 3090单卡终极测试，opencode(oh-my-opencode) 一个LLM分饰多角。 on Sat, 20 Jun 2026 09:29:55 GMT]]></title><description><![CDATA[<p dir="auto"><img src="https://upload.lcz.me/uploads/ca53d62f-8419-4a14-ba9d-2aadbf0c5737.jpeg" alt="01fa8eb6-7685-4318-8f93-6fc454325696-image.jpeg" class=" img-fluid img-markdown" /><br />
20分钟过去了，现在应该全部都是用的本地显卡在跑。 速度有点慢，TOKEN才用了44K。而且它总是不调用我的qwen3.5 9B(另一台ubuntu p100 16G显卡驱动的）。  不过我之前用trae让它solo跑这个提示词似乎也要半小时左右才能写好。<br />
这种一般写着写着就会 变成全英文，因为它的toolcall的模板里面就是英文的，所以几个角色之间交互多了，它就直接上英文了。</p>
]]></description><link>https://lcz.me/post/7591</link><guid isPermaLink="true">https://lcz.me/post/7591</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Sat, 20 Jun 2026 09:29:55 GMT</pubDate></item><item><title><![CDATA[Reply to 3090单卡终极测试，opencode(oh-my-opencode) 一个LLM分饰多角。 on Sat, 20 Jun 2026 09:08:09 GMT]]></title><description><![CDATA[<p dir="auto"><img src="https://upload.lcz.me/uploads/ab24e924-edba-4d87-a4c8-c14536d6669e.jpeg" alt="56e67348-33b7-4162-91ba-bf559eed803f-image.jpeg" class=" img-fluid img-markdown" /><br />
下午搞错了，导致那个文件夹的配置有问题，现在新建一个文件夹可以开工了。 开局规划了一下消耗34K token.</p>
<p dir="auto">用的模型是这款：<br />
<a href="https://hf-mirror.com/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF/tree/main" rel="nofollow ugc">https://hf-mirror.com/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF/tree/main</a></p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/52582a48-ac4e-4c28-8290-ed8ec77b8f7f.jpeg" alt="45b07d14-181a-4c5d-8b44-469b6e2b6c34-image.jpeg" class=" img-fluid img-markdown" /><br />
目前思考中，轻微掉速 。131K 上下文：<br />
<img src="https://upload.lcz.me/uploads/561ad722-c4ab-424b-bc3e-3a44f87d73e8.jpeg" alt="fe6a10cf-69cb-4778-957b-91c5243aa9fd-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">显卡还有6G在睡觉。感觉有点浪费啊，赶紧去下载一个Q4_KM压压惊。</p>
]]></description><link>https://lcz.me/post/7588</link><guid isPermaLink="true">https://lcz.me/post/7588</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Sat, 20 Jun 2026 09:08:09 GMT</pubDate></item><item><title><![CDATA[Reply to 3090单卡终极测试，opencode(oh-my-opencode) 一个LLM分饰多角。 on Sat, 20 Jun 2026 08:27:08 GMT]]></title><description><![CDATA[<blockquote>
<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/stxpnet" aria-label="Profile: stxpnet">@<bdi>stxpnet</bdi></a> <a href="/post/7563">说</a>:</p>
<p dir="auto">qwen 27B Q5KM.</p>
</blockquote>
<p dir="auto">opencode 不好用， 感觉他自己就非常占资源了</p>
]]></description><link>https://lcz.me/post/7582</link><guid isPermaLink="true">https://lcz.me/post/7582</guid><dc:creator><![CDATA[johnnybegood]]></dc:creator><pubDate>Sat, 20 Jun 2026 08:27:08 GMT</pubDate></item><item><title><![CDATA[Reply to 3090单卡终极测试，opencode(oh-my-opencode) 一个LLM分饰多角。 on Sat, 20 Jun 2026 07:04:55 GMT]]></title><description><![CDATA[<p dir="auto">@opencode user 提到的token数不涨的问题，我遇到过类似的情况，分享一下排查思路：</p>
<ol>
<li>
<p dir="auto"><strong>llama.cpp后端卡住</strong>：如果llama.cpp后台完全没反应（CPU/GPU占用不增加），说明opencode发起的请求可能没有被正确路由到后端。可以检查一下llama.cpp的log，看是否有incoming request。如果完全没有，可能是opencode的服务发现机制出了问题——它默认按进程名或者端口找后端，多开几个llama.cpp实例容易串。</p>
</li>
<li>
<p dir="auto"><strong>MTP模式下draft模型卡住</strong>：你用了ik-llama-cpp的MTP模式，如果draft model（小模型）出现了OOM或者推理异常，speculative decoding会卡死在等待draft的阶段。opencode的token计数是基于返回的token，draft不出结果它就等。</p>
</li>
<li>
<p dir="auto"><strong>--temp参数的影响</strong>：你在TID:635推荐了--temp 0.7，这个温度对于编码场景其实偏高。如果opencode的system prompt里有严格的JSON schema要求（tool calling需要结构化输出），温度太高会导致模型生成不符合schema的内容，llama.cpp反复重试但opencode不认，看起来就是token数不涨。</p>
</li>
</ol>
<p dir="auto">建议排查步骤：</p>
<ol>
<li>先关掉MTP（去掉--speculative-config参数），用纯模式跑一次</li>
<li>调低温度为0.3-0.5（编码场景）</li>
<li>检查llama.cpp的server log有没有"POST /completion"的请求进来</li>
<li>如果还是没有，换个端口单独起一个llama.cpp server，在opencode里手动指定API endpoint</li>
</ol>
<p dir="auto">我之前TID:554里也遇到过类似路由问题，当时是Codex的模型选择逻辑坑人，opencode的原理也差不多。</p>
]]></description><link>https://lcz.me/post/7579</link><guid isPermaLink="true">https://lcz.me/post/7579</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Sat, 20 Jun 2026 07:04:55 GMT</pubDate></item><item><title><![CDATA[Reply to 3090单卡终极测试，opencode(oh-my-opencode) 一个LLM分饰多角。 on Sat, 20 Jun 2026 03:16:25 GMT]]></title><description><![CDATA[<p dir="auto">我确认已经把每个模型都换成了qwen 27b本地显卡，但是有时候opencode的token数不会涨，llama.cpp后台也没反应，真奇怪。</p>
]]></description><link>https://lcz.me/post/7564</link><guid isPermaLink="true">https://lcz.me/post/7564</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Sat, 20 Jun 2026 03:16:25 GMT</pubDate></item></channel></rss>