3090单卡终极测试，opencode(oh-my-opencode) 一个LLM分饰多角。

johnnybegood

@stxpnet 说:

qwen 27B Q5KM.

opencode 不好用，感觉他自己就非常占资源了

stxpnet

下午搞错了，导致那个文件夹的配置有问题，现在新建一个文件夹可以开工了。开局规划了一下消耗34K token.

用的模型是这款：
https://hf-mirror.com/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF/tree/main

目前思考中，轻微掉速。131K 上下文：

显卡还有6G在睡觉。感觉有点浪费啊，赶紧去下载一个Q4_KM压压惊。

stxpnet

20分钟过去了，现在应该全部都是用的本地显卡在跑。速度有点慢，TOKEN才用了44K。而且它总是不调用我的qwen3.5 9B(另一台ubuntu p100 16G显卡驱动的）。不过我之前用trae让它solo跑这个提示词似乎也要半小时左右才能写好。
这种一般写着写着就会变成全英文，因为它的toolcall的模板里面就是英文的，所以几个角色之间交互多了，它就直接上英文了。

stxpnet

这个提示似乎表明它上网去搜索了借鉴了AI算法：很好，这对实践很有意义啊，不要老是在270亿Q4量化的参数里面去找知识，善用外部资源才是王道。

stxpnet

已经1小时了，如果把它看作agent的话，应该已经到了颅内高潮了吧？目前应该是项目使用参数最多的时候，但它的算力是有限的，后期如果opencode那边的计算需要没有降下来，随着参数的增加，LLM的生成速度应该要开始衰减了。

stxpnet

这才把计划做好，让我选择要不要高精度需求Review,这不是实际工程，我肯定选直接开工啊！

stxpnet

此时上下文已经到100K了，
我看了一下它的计划文档，做得有点过于详细了。

在TRAE那个全栈AI程序员那些，就不是这样的。
目前还不知道超过131K限制了会怎样。opencode的配置里面并没写入模型的上下文大小。

现在提示我输入命令开始工作。，我选择休息3分钟，让显卡降降温。目前显卡占用还是20.8G，剩余3.2G

stxpnet

目前opencode里显示的上下文已经来到150K了，llama.cpp这边居然没报错，nvtop显示还是20.79G显存占用，稳如老狗。不过刚才有留意到llama.cpp的日志提示删除检查点。看来上下文已经开始滚动覆盖了！

生成速度的话，目前到158K上下文了，我观察的是在45-60T/S之间反复横跳。

另外就是这个lazy grammer的彩色日志老是出现，不知道有无影响。

stxpnet

上下文爆了一次（168K），现在我将上下文增加到200K，ubatch减小为256，再重试，

又产生循环了，强行中止，让plan executor从发生错误的位置开始继续干活。

stxpnet

经过几次调整参数和修改策略，勉强跑到这个程度。其中我在60%上下文的时候应该寻找时机压缩一次的。 opencode不像hermes那样有自动压缩机制。现在压缩一下看能不能救回来

stxpnet

3090显卡支撑不了2000行的单文件，烂尾了，反思一下，以后如果要用它写小项目，单文件一定不能超过500-800行，否则它会把一个文件放到全部上下文里面去写，造成循环或者崩溃。
以前用trae写出来能用的代码最多也就1200行。

566656661

Opencode沒辦法自動Compact這個也算一個敗筆了, 試試看Cline吧

不過理論上也不應該叫主Agent去做這種事吧

通常都是跟主Agent敲定好每個Subagent要做什麽然後叫它們自己安排, Agent負責協調跟報告就好

stxpnet

综合这么多天的实践，我最终留了两套配置：

620-23pm 最终给hermes用的
                  killall llama3-server 2>/dev/null; sleep 3
     killall llama-server 2>/dev/null; sleep 3
   export LD_LIBRARY_PATH=/data/models/beellma616-kv.cpp/build/bin:$LD_LIBRARY_PATH
       /data/model2/beellma616-kv.cpp/build/bin/llama-server \
      --host 0.0.0.0 --port 8025 \
      -m /data/models/Qwopus3.6-27B-v2-MTP-IQ4_XS.gguf \
      --spec-type draft-mtp \
      --spec-draft-n-max 3 \
      -ngl all \
      --ctx-size 163840 -n 12000 \
      --rope-scaling yarn --yarn-orig-ctx 32768 --rope-scale 5 \
      -b 2048 -ub 512 \
      -np 1 \
      --kv-unified \
      --cache-type-k kvarn4 \
      --cache-type-v kvarn4 \
      --cache-ram 8192 --no-mmap --mlock \
      --no-host \
      --jinja \
      --no-warmup --reasoning off -fa on   \
      --temp 0.7 --top-p 0.83 --top-k 20 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0

  /data/model2/Qwopus3.6-27B-Coder-MTP-Q4_K_M.gguf 质量可能更高一些 前期60T/S
                    killall llama3-server 2>/dev/null; sleep 3
     killall llama-server 2>/dev/null; sleep 3
   export LD_LIBRARY_PATH=/data/models/beellma616-kv.cpp/build/bin:$LD_LIBRARY_PATH
       /data/model2/beellma616-kv.cpp/build/bin/llama-server \
      --host 0.0.0.0 --port 8025 \
      -m /data/model2/Qwopus3.6-27B-Coder-MTP-Q4_K_M.gguf \
      --spec-type draft-mtp \
      --spec-draft-n-max 3 \
      -ngl all \
      --ctx-size 163840 -n 16000 \
      --rope-scaling yarn --yarn-orig-ctx 32768 --rope-scale 5 \
      -b 2048 -ub 512 \
      -np 1 \
      --kv-unified \
      --cache-type-k kvarn4 \
      --cache-type-v kvarn4 \
      --cache-ram 10240 --no-mmap --mlock \
      --no-host \
      --jinja \
      --no-warmup --reasoning off -fa on   \
      --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.05 --repeat-penalty 1.0

抡锤者

3090单卡终极测试，opencode(oh-my-opencode) 一个LLM分饰多角。