<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住]]></title><description><![CDATA[<pre><code>services:
  ik-llama-qwen36-27b-iq4ks-mtp:
    image: ${IK_LLAMA_IMAGE:-ghcr.io/ikawrakow/ik-llama-cpp@sha256:5f914f1ccade922417af58c94bd1cbb558052c8852d86678ead3fe693eec0143}
    container_name: "${ESTATE_CONTAINER:-ik-llama-qwen36-27b}"
    restart: unless-stopped
    ports:
      - "${ESTATE_PORT:-${PORT:-8020}}:8080"
    volumes:
      - "${MODEL_DIR:-../../../../../../models-cache}:/models:ro"
    # server target ENTRYPOINT is /app/llama-server — args only below.
    # ⚠ -np 1 is intentional on a single 24 GB card — do NOT raise it to
    #   "parallelize." One GPU is compute-bound: extra slots divide its
    #   throughput, they don't multiply it. At -np 4 each slot fell to
    #   ~14 tok/s here — slow enough to trip agentic clients' per-request
    #   timeouts (aider ran 1/30) — and -np&gt;1 also auto-disables MTP and
    #   can OOM the spec-context buffer. On a higher-throughput card (e.g.
    #   5090) or multi-GPU the trade may flip — re-validate before raising.
    command: &gt;-
      --host 0.0.0.0
      --port 8080
      --model /models/${GGUF_FILE:-qwen3.6-27b-gguf/ubergarm-mtp-iq4ks/Qwen3.6-27B-MTP-IQ4_KS.gguf}
      -ngl 99
      --ctx-size ${CTX_SIZE:-200000}
      -b ${BATCH_SIZE:-4096}
      -ub ${UBATCH_SIZE:-1024}
      -np ${NP:-1}
      -ctk ${KV_TYPE:-q4_0}
      -ctv ${KV_TYPE:-q4_0}
      -khad
      -vhad
      -ngld 99
      --spec-type mtp:n_max=${MTP_DRAFT_N_MAX:-2},p_min=${DRAFT_P_MIN:-0.0}
      --recurrent-ckpt-mode auto
      --merge-qkv
      -fa on
      --chat-template-kwargs '{"enable_thinking": false}'
      --jinja
      --chat-template-file /models/qwen3.6-27b-gguf/ubergarm-mtp-iq4ks/chat_template.jinja
      --parallel-tool-calls
      --reasoning ${REASONING:-off}
      --reasoning-format ${REASONING_FORMAT:-deepseek}
      --temp ${TEMP:-${TEMPERATURE:-0.6}}
      --top-p ${TOP_P:-0.95}
      --top-k ${TOP_K:-20}
      --min-p ${MIN_P:-0.0}
      --repeat-penalty ${REPEAT_PENALTY:-1.0}
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              device_ids: ["${ESTATE_GPUS:-${CUDA_VISIBLE_DEVICES:-0}}"]
              capabilities: [gpu]

</code></pre>
<p dir="auto">症状如图：<br />
<img src="https://upload.lcz.me/uploads/f3d507c9-a7a2-4951-ae41-bca572690ad8.jpeg" alt="07f8ebf3-5c42-4694-8a1b-daba191a0f79-image.jpeg" class=" img-fluid img-markdown" /></p>
]]></description><link>https://lcz.me/topic/635/为什么opencode等工具调用-本地3090部署的qwen27b-会开始说胡话-然后无限卡住</link><generator>RSS for Node</generator><lastBuildDate>Wed, 01 Jul 2026 12:08:37 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/635.rss" rel="self" type="application/rss+xml"/><pubDate>Sat, 20 Jun 2026 03:42:01 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Fri, 26 Jun 2026 01:10:43 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/stxpnet" aria-label="Profile: stxpnet">@<bdi>stxpnet</bdi></a> 等抄你作业，我现在跑的3090club</p>
]]></description><link>https://lcz.me/post/8300</link><guid isPermaLink="true">https://lcz.me/post/8300</guid><dc:creator><![CDATA[c0aster]]></dc:creator><pubDate>Fri, 26 Jun 2026 01:10:43 GMT</pubDate></item><item><title><![CDATA[Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Thu, 25 Jun 2026 02:30:00 GMT]]></title><description><![CDATA[<p dir="auto">咋说呢，我也想上另一张3090. 但是又感觉咱们这个单卡还有点优化空间。</p>
]]></description><link>https://lcz.me/post/8204</link><guid isPermaLink="true">https://lcz.me/post/8204</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Thu, 25 Jun 2026 02:30:00 GMT</pubDate></item><item><title><![CDATA[Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Thu, 25 Jun 2026 02:22:44 GMT]]></title><description><![CDATA[<p dir="auto">反正跑不满，然后就check point，重新生成缓存，就这个时间也长，24G内存还是少了</p>
]]></description><link>https://lcz.me/post/8203</link><guid isPermaLink="true">https://lcz.me/post/8203</guid><dc:creator><![CDATA[c0aster]]></dc:creator><pubDate>Thu, 25 Jun 2026 02:22:44 GMT</pubDate></item><item><title><![CDATA[Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Wed, 24 Jun 2026 01:57:56 GMT]]></title><description><![CDATA[<p dir="auto">beellama的内存和显存管理我一直没搞懂,这几天我看它的说是什么环形内存. 反正显存总是有那么2-4G空着,感觉怪怪的.</p>
]]></description><link>https://lcz.me/post/8080</link><guid isPermaLink="true">https://lcz.me/post/8080</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Wed, 24 Jun 2026 01:57:56 GMT</pubDate></item><item><title><![CDATA[Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Mon, 22 Jun 2026 15:26:30 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/stxpnet" aria-label="Profile: stxpnet">@<bdi>stxpnet</bdi></a> 应该是这个问题，我让他修BUG，最后循环胡说了</p>
]]></description><link>https://lcz.me/post/7896</link><guid isPermaLink="true">https://lcz.me/post/7896</guid><dc:creator><![CDATA[c0aster]]></dc:creator><pubDate>Mon, 22 Jun 2026 15:26:30 GMT</pubDate></item><item><title><![CDATA[Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Mon, 22 Jun 2026 08:22:34 GMT]]></title><description><![CDATA[<p dir="auto">今天我还发现一种可能，就是参数超限制了，显存太低，KV CACHE过小 处理不了那么多参数，经过多轮之后，上下文实际已经爆炸了。 但是各种 fork的llama.cpp 处理不了，还硬要装。<br />
那有些的默认就删除检查点，删除了检查点，但没通知编程的IDE，这是致命的。 两者已经事实上不同步了。<br />
比如IDE里面已有会话内容里面包含了某些参数，但LLM已经在检查点里面把那些参数删除了。<br />
llama.cpp把检查点删除了，下一轮，IDE又把带着新内容的完整上下文丢进来，就这样，LLM开始疯狂打转了，循环了，温度非常高，但实际是无意义空转。Transformer的架构决定了。二者不同步，后面自然就产生循环了。  所以写程序，还是要知道它的上下文真实限制在哪个位置，并且尽量少给参数。</p>
]]></description><link>https://lcz.me/post/7811</link><guid isPermaLink="true">https://lcz.me/post/7811</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Mon, 22 Jun 2026 08:22:34 GMT</pubDate></item><item><title><![CDATA[Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Mon, 22 Jun 2026 02:17:52 GMT]]></title><description><![CDATA[<p dir="auto">工具调用失败时，qwen3.6-27B尤其会进入无限的thinking循环。<br />
所以在使用Agent工具的时候更容易复现这个问题。因为Agent的工具调用不是100%稳定。</p>
<p dir="auto">排除Agent工具本身的问题之后，可以考虑重复惩罚适当调高。</p>
]]></description><link>https://lcz.me/post/7765</link><guid isPermaLink="true">https://lcz.me/post/7765</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Mon, 22 Jun 2026 02:17:52 GMT</pubDate></item><item><title><![CDATA[Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Sat, 20 Jun 2026 09:13:27 GMT]]></title><description><![CDATA[<p dir="auto">--temp 0.7 --top-p 0.8 --top-k 20 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0   我说的是这些，用官方给的，其实整体来说我测的结果就是别改  例如 --presence-penalty 1.5  这个惩罚太高了，你找一个有难度点的连续步骤自己测一下就知道了</p>
]]></description><link>https://lcz.me/post/7590</link><guid isPermaLink="true">https://lcz.me/post/7590</guid><dc:creator><![CDATA[Kk Hh]]></dc:creator><pubDate>Sat, 20 Jun 2026 09:13:27 GMT</pubDate></item><item><title><![CDATA[Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Sat, 20 Jun 2026 08:47:41 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/tony-wang" aria-label="Profile: Tony-Wang">@<bdi>Tony-Wang</bdi></a> 感谢版主的建议，那我一个一个参数细调吧，用的opencode写代码，bug修着修着，然后就开始出问题了，我看了下，可能是提示语词里有一些转义字符特别是点号和斜杠这些（看日志遇到这些才出的问题，我也只是看表面日志判断的），导致他开始混乱了</p>
]]></description><link>https://lcz.me/post/7587</link><guid isPermaLink="true">https://lcz.me/post/7587</guid><dc:creator><![CDATA[c0aster]]></dc:creator><pubDate>Sat, 20 Jun 2026 08:47:41 GMT</pubDate></item><item><title><![CDATA[Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Sat, 20 Jun 2026 08:45:08 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/stxpnet" aria-label="Profile: stxpnet">@<bdi>stxpnet</bdi></a> 已经没有用hermes了，用的Opencode，主要来写项目，确实温度是0.6，那我加大一点点看看</p>
]]></description><link>https://lcz.me/post/7586</link><guid isPermaLink="true">https://lcz.me/post/7586</guid><dc:creator><![CDATA[c0aster]]></dc:creator><pubDate>Sat, 20 Jun 2026 08:45:08 GMT</pubDate></item><item><title><![CDATA[Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Sat, 20 Jun 2026 08:42:59 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/kk-hh" aria-label="Profile: Kk-Hh">@<bdi>Kk-Hh</bdi></a> 这个就是3090 club的参数，我只加一个fix的chat 模板</p>
]]></description><link>https://lcz.me/post/7585</link><guid isPermaLink="true">https://lcz.me/post/7585</guid><dc:creator><![CDATA[c0aster]]></dc:creator><pubDate>Sat, 20 Jun 2026 08:42:59 GMT</pubDate></item><item><title><![CDATA[Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Sat, 20 Jun 2026 04:25:37 GMT]]></title><description><![CDATA[<p dir="auto">建议你用官方默认的参数</p>
]]></description><link>https://lcz.me/post/7574</link><guid isPermaLink="true">https://lcz.me/post/7574</guid><dc:creator><![CDATA[Kk Hh]]></dc:creator><pubDate>Sat, 20 Jun 2026 04:25:37 GMT</pubDate></item><item><title><![CDATA[Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Sat, 20 Jun 2026 04:21:29 GMT]]></title><description><![CDATA[<p dir="auto">你也可以直接打断它, 换一个新的任务说法试试.</p>
]]></description><link>https://lcz.me/post/7572</link><guid isPermaLink="true">https://lcz.me/post/7572</guid><dc:creator><![CDATA[Tony Wang]]></dc:creator><pubDate>Sat, 20 Jun 2026 04:21:29 GMT</pubDate></item><item><title><![CDATA[Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Sat, 20 Jun 2026 04:13:34 GMT]]></title><description><![CDATA[<p dir="auto">这个现象不奇怪, 时不时会出现.</p>
<p dir="auto">你的参数有点儿激进, 上下文比较长, KV 压缩比较狠, 开启MTP, 关闭thinking, 温度比较高, 这些都容易让LLM放飞自我.</p>
<p dir="auto">像工具调用这种相对明确的推理, 温度低一点儿为好. 另外就是试试开启thinking. 适当降低上下文. KV 精度可以考虑适当再大点儿. 如果decode速度可以的话, MTP也可以考虑关掉.</p>
]]></description><link>https://lcz.me/post/7570</link><guid isPermaLink="true">https://lcz.me/post/7570</guid><dc:creator><![CDATA[Tony Wang]]></dc:creator><pubDate>Sat, 20 Jun 2026 04:13:34 GMT</pubDate></item><item><title><![CDATA[Reply to 为什么opencode等工具调用，本地3090部署的qwen27B,会开始说胡话，然后无限卡住 on Sat, 20 Jun 2026 03:49:36 GMT]]></title><description><![CDATA[<p dir="auto">--temp 0.7 --top-p 0.8 --top-k 20 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0 换这个才能对话。 编程才需要用0.6.  如果你把0.6放到 对话里面，相当于HERMES调用的时候取了很多个参数，疯狂计算哪些解才是最佳的，用写代码的努力程度去做对话的事情。  对话0.7温度。  写作0.75，我在HF和reddit 上看到的。</p>
]]></description><link>https://lcz.me/post/7569</link><guid isPermaLink="true">https://lcz.me/post/7569</guid><dc:creator><![CDATA[stxpnet]]></dc:creator><pubDate>Sat, 20 Jun 2026 03:49:36 GMT</pubDate></item></channel></rss>