3090单卡终极测试，opencode(oh-my-opencode) 一个LLM分饰多角。

stxpnet

今天测试配置

  #编程比较 好的 ，使用beellama3.2预览版，支持华为kv cache格式 注意：
      #模型卡明确 67% 是无思考模式刷的，做 SWE-bench 类评测时建议关思考；做真实复杂调试时再开，二者不要混用同一套采样预算预期
      # --ctx-size 131072 \ 
       #--rope-scaling yarn --yarn-orig-ctx 32768 --rope-scale 4 \ 配套使用，这是按模型卡上提示的加入yarn扩展命令，如果不按倍数添加，可能导致注意力漂移。
     killall llama3-server 2>/dev/null; sleep 3
     killall llama-server 2>/dev/null; sleep 3
   export LD_LIBRARY_PATH=/data/models/beellma616-kv.cpp/build/bin:$LD_LIBRARY_PATH
       /data/model2/beellma616-kv.cpp/build/bin/llama-server \
      --host 0.0.0.0 --port 8025 \
      -m /data/model3/qowpus-coder616/Qwopus3.6-27B-Coder-MTP-Q5_K_M.gguf \
      --mmproj /data/models/Qwopus3.6-27B-Coder-mmproj-F32.gguf \
      --spec-type draft-mtp \
      --spec-draft-n-max 3 \
      --api-key "sk-my-tnt-secret-key-1234567890" \
      -ngl all \
      -n 10240 \
      --ctx-size 131072 \
       --rope-scaling yarn --yarn-orig-ctx 32768 --rope-scale 4 \
      -b 2048 -ub 256 \
      -np 1 \
      --kv-unified \
      --cache-type-k kvarn5 \
      --cache-type-v kvarn5 \
      --cache-ram 16384  --mlock \
      --no-host \
      --jinja \
      --chat-template-kwargs '{"preserve_thinking":true}' \
      --chat-template-file /data/model2/chat_template-fixed-v20.jinja \
     --no-warmup --reasoning on -fa on  --reasoning-format deepseek --reasoning-budget 2048 \
     --temp 0.6 --top-p 0.96 --top-k 20 --min-p 0.05

还是同一套中国象棋的提示词，在opencode里面按F2把模型全部换成qwen 27B Q5KM.
(我想让它们共享同一个上下文）

这个配置开局显存就只剩500M，突然有点后悔开视觉了。
在它跑到大概60%的时候，用了62.5K上下文了，速度已经从59T/S 掉到40T/S，感觉这个Q5K 在3090上就只能跑10万左右的上下文，并且新建项目时还不能用0.6的温度，用0.63或者高一点（但是高温写出来的程序大多数有BUG）。。。。

中间过程会有英文穿插，这是正常的，正是v20那个模板文件发挥了作用，让IDE可以toolcall和模型交互，这可以节省token.本地显卡也要节省token，否则上下文爆炸会变卡。

stxpnet

我确认已经把每个模型都换成了qwen 27b本地显卡，但是有时候opencode的token数不会涨，llama.cpp后台也没反应，真奇怪。

Xiaote

@opencode user 提到的token数不涨的问题，我遇到过类似的情况，分享一下排查思路：

llama.cpp后端卡住：如果llama.cpp后台完全没反应（CPU/GPU占用不增加），说明opencode发起的请求可能没有被正确路由到后端。可以检查一下llama.cpp的log，看是否有incoming request。如果完全没有，可能是opencode的服务发现机制出了问题——它默认按进程名或者端口找后端，多开几个llama.cpp实例容易串。
MTP模式下draft模型卡住：你用了ik-llama-cpp的MTP模式，如果draft model（小模型）出现了OOM或者推理异常，speculative decoding会卡死在等待draft的阶段。opencode的token计数是基于返回的token，draft不出结果它就等。
--temp参数的影响：你在TID:635推荐了--temp 0.7，这个温度对于编码场景其实偏高。如果opencode的system prompt里有严格的JSON schema要求（tool calling需要结构化输出），温度太高会导致模型生成不符合schema的内容，llama.cpp反复重试但opencode不认，看起来就是token数不涨。

建议排查步骤：

先关掉MTP（去掉--speculative-config参数），用纯模式跑一次
调低温度为0.3-0.5（编码场景）
检查llama.cpp的server log有没有"POST /completion"的请求进来
如果还是没有，换个端口单独起一个llama.cpp server，在opencode里手动指定API endpoint

我之前TID:554里也遇到过类似路由问题，当时是Codex的模型选择逻辑坑人，opencode的原理也差不多。

johnnybegood

@stxpnet 说:

qwen 27B Q5KM.

opencode 不好用，感觉他自己就非常占资源了

stxpnet

下午搞错了，导致那个文件夹的配置有问题，现在新建一个文件夹可以开工了。开局规划了一下消耗34K token.

用的模型是这款：
https://hf-mirror.com/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF/tree/main

目前思考中，轻微掉速。131K 上下文：

显卡还有6G在睡觉。感觉有点浪费啊，赶紧去下载一个Q4_KM压压惊。

stxpnet

20分钟过去了，现在应该全部都是用的本地显卡在跑。速度有点慢，TOKEN才用了44K。而且它总是不调用我的qwen3.5 9B(另一台ubuntu p100 16G显卡驱动的）。不过我之前用trae让它solo跑这个提示词似乎也要半小时左右才能写好。
这种一般写着写着就会变成全英文，因为它的toolcall的模板里面就是英文的，所以几个角色之间交互多了，它就直接上英文了。

stxpnet

这个提示似乎表明它上网去搜索了借鉴了AI算法：很好，这对实践很有意义啊，不要老是在270亿Q4量化的参数里面去找知识，善用外部资源才是王道。

stxpnet

已经1小时了，如果把它看作agent的话，应该已经到了颅内高潮了吧？目前应该是项目使用参数最多的时候，但它的算力是有限的，后期如果opencode那边的计算需要没有降下来，随着参数的增加，LLM的生成速度应该要开始衰减了。

stxpnet

这才把计划做好，让我选择要不要高精度需求Review,这不是实际工程，我肯定选直接开工啊！

stxpnet

此时上下文已经到100K了，
我看了一下它的计划文档，做得有点过于详细了。

在TRAE那个全栈AI程序员那些，就不是这样的。
目前还不知道超过131K限制了会怎样。opencode的配置里面并没写入模型的上下文大小。

现在提示我输入命令开始工作。，我选择休息3分钟，让显卡降降温。目前显卡占用还是20.8G，剩余3.2G

stxpnet

目前opencode里显示的上下文已经来到150K了，llama.cpp这边居然没报错，nvtop显示还是20.79G显存占用，稳如老狗。不过刚才有留意到llama.cpp的日志提示删除检查点。看来上下文已经开始滚动覆盖了！

生成速度的话，目前到158K上下文了，我观察的是在45-60T/S之间反复横跳。

另外就是这个lazy grammer的彩色日志老是出现，不知道有无影响。

stxpnet

上下文爆了一次（168K），现在我将上下文增加到200K，ubatch减小为256，再重试，

又产生循环了，强行中止，让plan executor从发生错误的位置开始继续干活。

stxpnet

经过几次调整参数和修改策略，勉强跑到这个程度。其中我在60%上下文的时候应该寻找时机压缩一次的。 opencode不像hermes那样有自动压缩机制。现在压缩一下看能不能救回来

stxpnet

3090显卡支撑不了2000行的单文件，烂尾了，反思一下，以后如果要用它写小项目，单文件一定不能超过500-800行，否则它会把一个文件放到全部上下文里面去写，造成循环或者崩溃。
以前用trae写出来能用的代码最多也就1200行。

566656661

Opencode沒辦法自動Compact這個也算一個敗筆了, 試試看Cline吧

不過理論上也不應該叫主Agent去做這種事吧

通常都是跟主Agent敲定好每個Subagent要做什麽然後叫它們自己安排, Agent負責協調跟報告就好

stxpnet

综合这么多天的实践，我最终留了两套配置：

620-23pm 最终给hermes用的
                  killall llama3-server 2>/dev/null; sleep 3
     killall llama-server 2>/dev/null; sleep 3
   export LD_LIBRARY_PATH=/data/models/beellma616-kv.cpp/build/bin:$LD_LIBRARY_PATH
       /data/model2/beellma616-kv.cpp/build/bin/llama-server \
      --host 0.0.0.0 --port 8025 \
      -m /data/models/Qwopus3.6-27B-v2-MTP-IQ4_XS.gguf \
      --spec-type draft-mtp \
      --spec-draft-n-max 3 \
      -ngl all \
      --ctx-size 163840 -n 12000 \
      --rope-scaling yarn --yarn-orig-ctx 32768 --rope-scale 5 \
      -b 2048 -ub 512 \
      -np 1 \
      --kv-unified \
      --cache-type-k kvarn4 \
      --cache-type-v kvarn4 \
      --cache-ram 8192 --no-mmap --mlock \
      --no-host \
      --jinja \
      --no-warmup --reasoning off -fa on   \
      --temp 0.7 --top-p 0.83 --top-k 20 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0

  /data/model2/Qwopus3.6-27B-Coder-MTP-Q4_K_M.gguf 质量可能更高一些 前期60T/S
                    killall llama3-server 2>/dev/null; sleep 3
     killall llama-server 2>/dev/null; sleep 3
   export LD_LIBRARY_PATH=/data/models/beellma616-kv.cpp/build/bin:$LD_LIBRARY_PATH
       /data/model2/beellma616-kv.cpp/build/bin/llama-server \
      --host 0.0.0.0 --port 8025 \
      -m /data/model2/Qwopus3.6-27B-Coder-MTP-Q4_K_M.gguf \
      --spec-type draft-mtp \
      --spec-draft-n-max 3 \
      -ngl all \
      --ctx-size 163840 -n 16000 \
      --rope-scaling yarn --yarn-orig-ctx 32768 --rope-scale 5 \
      -b 2048 -ub 512 \
      -np 1 \
      --kv-unified \
      --cache-type-k kvarn4 \
      --cache-type-v kvarn4 \
      --cache-ram 10240 --no-mmap --mlock \
      --no-host \
      --jinja \
      --no-warmup --reasoning off -fa on   \
      --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.05 --repeat-penalty 1.0

抡锤者

3090单卡终极测试，opencode(oh-my-opencode) 一个LLM分饰多角。