为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住

Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Fri, 26 Jun 2026 01:10:43 GMT

c0aster — Fri, 26 Jun 2026 01:10:43 GMT

@stxpnet 等抄你作业，我现在跑的3090club

Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Thu, 25 Jun 2026 02:30:00 GMT

stxpnet — Thu, 25 Jun 2026 02:30:00 GMT

咋说呢，我也想上另一张3090. 但是又感觉咱们这个单卡还有点优化空间。

Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Thu, 25 Jun 2026 02:22:44 GMT

c0aster — Thu, 25 Jun 2026 02:22:44 GMT

反正跑不满，然后就check point，重新生成缓存，就这个时间也长，24G内存还是少了

Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Wed, 24 Jun 2026 01:57:56 GMT

stxpnet — Wed, 24 Jun 2026 01:57:56 GMT

beellama的内存和显存管理我一直没搞懂,这几天我看它的说是什么环形内存. 反正显存总是有那么2-4G空着,感觉怪怪的.

Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Mon, 22 Jun 2026 15:26:30 GMT

c0aster — Mon, 22 Jun 2026 15:26:30 GMT

@stxpnet 应该是这个问题，我让他修BUG，最后循环胡说了

Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Mon, 22 Jun 2026 08:22:34 GMT

stxpnet — Mon, 22 Jun 2026 08:22:34 GMT

今天我还发现一种可能，就是参数超限制了，显存太低，KV CACHE过小处理不了那么多参数，经过多轮之后，上下文实际已经爆炸了。但是各种 fork的llama.cpp 处理不了，还硬要装。
那有些的默认就删除检查点，删除了检查点，但没通知编程的IDE，这是致命的。两者已经事实上不同步了。
比如IDE里面已有会话内容里面包含了某些参数，但LLM已经在检查点里面把那些参数删除了。
llama.cpp把检查点删除了，下一轮，IDE又把带着新内容的完整上下文丢进来，就这样，LLM开始疯狂打转了，循环了，温度非常高，但实际是无意义空转。Transformer的架构决定了。二者不同步，后面自然就产生循环了。所以写程序，还是要知道它的上下文真实限制在哪个位置，并且尽量少给参数。

Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Mon, 22 Jun 2026 02:17:52 GMT

kop wang — Mon, 22 Jun 2026 02:17:52 GMT

工具调用失败时，qwen3.6-27B尤其会进入无限的thinking循环。
所以在使用Agent工具的时候更容易复现这个问题。因为Agent的工具调用不是100%稳定。

排除Agent工具本身的问题之后，可以考虑重复惩罚适当调高。

Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Sat, 20 Jun 2026 09:13:27 GMT

Kk Hh — Sat, 20 Jun 2026 09:13:27 GMT

--temp 0.7 --top-p 0.8 --top-k 20 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0 我说的是这些，用官方给的，其实整体来说我测的结果就是别改例如 --presence-penalty 1.5 这个惩罚太高了，你找一个有难度点的连续步骤自己测一下就知道了

Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Sat, 20 Jun 2026 08:47:41 GMT

c0aster — Sat, 20 Jun 2026 08:47:41 GMT

@Tony-Wang 感谢版主的建议，那我一个一个参数细调吧，用的opencode写代码，bug修着修着，然后就开始出问题了，我看了下，可能是提示语词里有一些转义字符特别是点号和斜杠这些（看日志遇到这些才出的问题，我也只是看表面日志判断的），导致他开始混乱了

Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Sat, 20 Jun 2026 08:45:08 GMT

c0aster — Sat, 20 Jun 2026 08:45:08 GMT

@stxpnet 已经没有用hermes了，用的Opencode，主要来写项目，确实温度是0.6，那我加大一点点看看

Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Sat, 20 Jun 2026 08:42:59 GMT

c0aster — Sat, 20 Jun 2026 08:42:59 GMT

@Kk-Hh 这个就是3090 club的参数，我只加一个fix的chat 模板

Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Sat, 20 Jun 2026 04:25:37 GMT

Kk Hh — Sat, 20 Jun 2026 04:25:37 GMT

建议你用官方默认的参数

Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Sat, 20 Jun 2026 04:21:29 GMT

Tony Wang — Sat, 20 Jun 2026 04:21:29 GMT

你也可以直接打断它, 换一个新的任务说法试试.

Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Sat, 20 Jun 2026 04:13:34 GMT

Tony Wang — Sat, 20 Jun 2026 04:13:34 GMT

这个现象不奇怪, 时不时会出现.

你的参数有点儿激进, 上下文比较长, KV 压缩比较狠, 开启MTP, 关闭thinking, 温度比较高, 这些都容易让LLM放飞自我.

像工具调用这种相对明确的推理, 温度低一点儿为好. 另外就是试试开启thinking. 适当降低上下文. KV 精度可以考虑适当再大点儿. 如果decode速度可以的话, MTP也可以考虑关掉.

Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Sat, 20 Jun 2026 03:49:36 GMT

stxpnet — Sat, 20 Jun 2026 03:49:36 GMT

--temp 0.7 --top-p 0.8 --top-k 20 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0 换这个才能对话。编程才需要用0.6. 如果你把0.6放到对话里面，相当于HERMES调用的时候取了很多个参数，疯狂计算哪些解才是最佳的，用写代码的努力程度去做对话的事情。对话0.7温度。写作0.75，我在HF和reddit 上看到的。