为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住

stxpnet

--temp 0.7 --top-p 0.8 --top-k 20 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0 换这个才能对话。编程才需要用0.6. 如果你把0.6放到对话里面，相当于HERMES调用的时候取了很多个参数，疯狂计算哪些解才是最佳的，用写代码的努力程度去做对话的事情。对话0.7温度。写作0.75，我在HF和reddit 上看到的。

Tony Wang

这个现象不奇怪, 时不时会出现.

你的参数有点儿激进, 上下文比较长, KV 压缩比较狠, 开启MTP, 关闭thinking, 温度比较高, 这些都容易让LLM放飞自我.

像工具调用这种相对明确的推理, 温度低一点儿为好. 另外就是试试开启thinking. 适当降低上下文. KV 精度可以考虑适当再大点儿. 如果decode速度可以的话, MTP也可以考虑关掉.

Tony Wang

你也可以直接打断它, 换一个新的任务说法试试.

Kk Hh

建议你用官方默认的参数

c0aster

@Kk-Hh 这个就是3090 club的参数，我只加一个fix的chat 模板

c0aster

@stxpnet 已经没有用hermes了，用的Opencode，主要来写项目，确实温度是0.6，那我加大一点点看看

c0aster

@Tony-Wang 感谢版主的建议，那我一个一个参数细调吧，用的opencode写代码，bug修着修着，然后就开始出问题了，我看了下，可能是提示语词里有一些转义字符特别是点号和斜杠这些（看日志遇到这些才出的问题，我也只是看表面日志判断的），导致他开始混乱了

Kk Hh

--temp 0.7 --top-p 0.8 --top-k 20 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0 我说的是这些，用官方给的，其实整体来说我测的结果就是别改例如 --presence-penalty 1.5 这个惩罚太高了，你找一个有难度点的连续步骤自己测一下就知道了

kop wang

工具调用失败时，qwen3.6-27B尤其会进入无限的thinking循环。
所以在使用Agent工具的时候更容易复现这个问题。因为Agent的工具调用不是100%稳定。

排除Agent工具本身的问题之后，可以考虑重复惩罚适当调高。

stxpnet

今天我还发现一种可能，就是参数超限制了，显存太低，KV CACHE过小处理不了那么多参数，经过多轮之后，上下文实际已经爆炸了。但是各种 fork的llama.cpp 处理不了，还硬要装。
那有些的默认就删除检查点，删除了检查点，但没通知编程的IDE，这是致命的。两者已经事实上不同步了。
比如IDE里面已有会话内容里面包含了某些参数，但LLM已经在检查点里面把那些参数删除了。
llama.cpp把检查点删除了，下一轮，IDE又把带着新内容的完整上下文丢进来，就这样，LLM开始疯狂打转了，循环了，温度非常高，但实际是无意义空转。Transformer的架构决定了。二者不同步，后面自然就产生循环了。所以写程序，还是要知道它的上下文真实限制在哪个位置，并且尽量少给参数。

c0aster

@stxpnet 应该是这个问题，我让他修BUG，最后循环胡说了

stxpnet

beellama的内存和显存管理我一直没搞懂,这几天我看它的说是什么环形内存. 反正显存总是有那么2-4G空着,感觉怪怪的.

c0aster

反正跑不满，然后就check point，重新生成缓存，就这个时间也长，24G内存还是少了

stxpnet

咋说呢，我也想上另一张3090. 但是又感觉咱们这个单卡还有点优化空间。

c0aster

@stxpnet 等抄你作业，我现在跑的3090club

抡锤者

为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住