跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 为什么opencode等工具调用,本地3090部署的qwen27B,会开始说胡话,然后无限卡住

为什么opencode等工具调用,本地3090部署的qwen27B,会开始说胡话,然后无限卡住

已定时 已固定 已锁定 已移动 LLM讨论区
16 帖子 5 发布者 319 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • C 离线
    C 离线
    c0aster
    编写于 最后由 编辑
    #1
    services:
      ik-llama-qwen36-27b-iq4ks-mtp:
        image: ${IK_LLAMA_IMAGE:-ghcr.io/ikawrakow/ik-llama-cpp@sha256:5f914f1ccade922417af58c94bd1cbb558052c8852d86678ead3fe693eec0143}
        container_name: "${ESTATE_CONTAINER:-ik-llama-qwen36-27b}"
        restart: unless-stopped
        ports:
          - "${ESTATE_PORT:-${PORT:-8020}}:8080"
        volumes:
          - "${MODEL_DIR:-../../../../../../models-cache}:/models:ro"
        # server target ENTRYPOINT is /app/llama-server — args only below.
        # ⚠ -np 1 is intentional on a single 24 GB card — do NOT raise it to
        #   "parallelize." One GPU is compute-bound: extra slots divide its
        #   throughput, they don't multiply it. At -np 4 each slot fell to
        #   ~14 tok/s here — slow enough to trip agentic clients' per-request
        #   timeouts (aider ran 1/30) — and -np>1 also auto-disables MTP and
        #   can OOM the spec-context buffer. On a higher-throughput card (e.g.
        #   5090) or multi-GPU the trade may flip — re-validate before raising.
        command: >-
          --host 0.0.0.0
          --port 8080
          --model /models/${GGUF_FILE:-qwen3.6-27b-gguf/ubergarm-mtp-iq4ks/Qwen3.6-27B-MTP-IQ4_KS.gguf}
          -ngl 99
          --ctx-size ${CTX_SIZE:-200000}
          -b ${BATCH_SIZE:-4096}
          -ub ${UBATCH_SIZE:-1024}
          -np ${NP:-1}
          -ctk ${KV_TYPE:-q4_0}
          -ctv ${KV_TYPE:-q4_0}
          -khad
          -vhad
          -ngld 99
          --spec-type mtp:n_max=${MTP_DRAFT_N_MAX:-2},p_min=${DRAFT_P_MIN:-0.0}
          --recurrent-ckpt-mode auto
          --merge-qkv
          -fa on
          --chat-template-kwargs '{"enable_thinking": false}'
          --jinja
          --chat-template-file /models/qwen3.6-27b-gguf/ubergarm-mtp-iq4ks/chat_template.jinja
          --parallel-tool-calls
          --reasoning ${REASONING:-off}
          --reasoning-format ${REASONING_FORMAT:-deepseek}
          --temp ${TEMP:-${TEMPERATURE:-0.6}}
          --top-p ${TOP_P:-0.95}
          --top-k ${TOP_K:-20}
          --min-p ${MIN_P:-0.0}
          --repeat-penalty ${REPEAT_PENALTY:-1.0}
        deploy:
          resources:
            reservations:
              devices:
                - driver: nvidia
                  device_ids: ["${ESTATE_GPUS:-${CUDA_VISIBLE_DEVICES:-0}}"]
                  capabilities: [gpu]
    
    

    症状如图:
    07f8ebf3-5c42-4694-8a1b-daba191a0f79-image.jpeg

    1 条回复 最后回复
    0
    • S 离线
      S 离线
      stxpnet
      技术大牛 劳动模范
      编写于 最后由 编辑
      #2

      --temp 0.7 --top-p 0.8 --top-k 20 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0 换这个才能对话。 编程才需要用0.6. 如果你把0.6放到 对话里面,相当于HERMES调用的时候取了很多个参数,疯狂计算哪些解才是最佳的,用写代码的努力程度去做对话的事情。 对话0.7温度。 写作0.75,我在HF和reddit 上看到的。

      C 1 条回复 最后回复
      0
      • Tony WangT 离线
        Tony WangT 离线
        Tony Wang
        超级版主
        编写于 最后由 编辑
        #3

        这个现象不奇怪, 时不时会出现.

        你的参数有点儿激进, 上下文比较长, KV 压缩比较狠, 开启MTP, 关闭thinking, 温度比较高, 这些都容易让LLM放飞自我.

        像工具调用这种相对明确的推理, 温度低一点儿为好. 另外就是试试开启thinking. 适当降低上下文. KV 精度可以考虑适当再大点儿. 如果decode速度可以的话, MTP也可以考虑关掉.

        C 1 条回复 最后回复
        0
        • Tony WangT 离线
          Tony WangT 离线
          Tony Wang
          超级版主
          编写于 最后由 编辑
          #4

          你也可以直接打断它, 换一个新的任务说法试试.

          1 条回复 最后回复
          0
          • Kk HhK 离线
            Kk HhK 离线
            Kk Hh
            编写于 最后由 编辑
            #5

            建议你用官方默认的参数

            C 1 条回复 最后回复
            0
            • Kk HhK Kk Hh

              建议你用官方默认的参数

              C 离线
              C 离线
              c0aster
              编写于 最后由 编辑
              #6

              @Kk-Hh 这个就是3090 club的参数,我只加一个fix的chat 模板

              1 条回复 最后回复
              0
              • S stxpnet

                --temp 0.7 --top-p 0.8 --top-k 20 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0 换这个才能对话。 编程才需要用0.6. 如果你把0.6放到 对话里面,相当于HERMES调用的时候取了很多个参数,疯狂计算哪些解才是最佳的,用写代码的努力程度去做对话的事情。 对话0.7温度。 写作0.75,我在HF和reddit 上看到的。

                C 离线
                C 离线
                c0aster
                编写于 最后由 编辑
                #7

                @stxpnet 已经没有用hermes了,用的Opencode,主要来写项目,确实温度是0.6,那我加大一点点看看

                1 条回复 最后回复
                0
                • Tony WangT Tony Wang

                  这个现象不奇怪, 时不时会出现.

                  你的参数有点儿激进, 上下文比较长, KV 压缩比较狠, 开启MTP, 关闭thinking, 温度比较高, 这些都容易让LLM放飞自我.

                  像工具调用这种相对明确的推理, 温度低一点儿为好. 另外就是试试开启thinking. 适当降低上下文. KV 精度可以考虑适当再大点儿. 如果decode速度可以的话, MTP也可以考虑关掉.

                  C 离线
                  C 离线
                  c0aster
                  编写于 最后由 编辑
                  #8

                  @Tony-Wang 感谢版主的建议,那我一个一个参数细调吧,用的opencode写代码,bug修着修着,然后就开始出问题了,我看了下,可能是提示语词里有一些转义字符特别是点号和斜杠这些(看日志遇到这些才出的问题,我也只是看表面日志判断的),导致他开始混乱了

                  1 条回复 最后回复
                  0
                  • Kk HhK 离线
                    Kk HhK 离线
                    Kk Hh
                    编写于 最后由 编辑
                    #9

                    --temp 0.7 --top-p 0.8 --top-k 20 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0 我说的是这些,用官方给的,其实整体来说我测的结果就是别改 例如 --presence-penalty 1.5 这个惩罚太高了,你找一个有难度点的连续步骤自己测一下就知道了

                    1 条回复 最后回复
                    0
                    • kop wangK 在线
                      kop wangK 在线
                      kop wang
                      超级版主
                      编写于 最后由 编辑
                      #10

                      工具调用失败时,qwen3.6-27B尤其会进入无限的thinking循环。
                      所以在使用Agent工具的时候更容易复现这个问题。因为Agent的工具调用不是100%稳定。

                      排除Agent工具本身的问题之后,可以考虑重复惩罚适当调高。

                      虚心交流,一起进步

                      1 条回复 最后回复
                      0
                      • S 离线
                        S 离线
                        stxpnet
                        技术大牛 劳动模范
                        编写于 最后由 编辑
                        #11

                        今天我还发现一种可能,就是参数超限制了,显存太低,KV CACHE过小 处理不了那么多参数,经过多轮之后,上下文实际已经爆炸了。 但是各种 fork的llama.cpp 处理不了,还硬要装。
                        那有些的默认就删除检查点,删除了检查点,但没通知编程的IDE,这是致命的。 两者已经事实上不同步了。
                        比如IDE里面已有会话内容里面包含了某些参数,但LLM已经在检查点里面把那些参数删除了。
                        llama.cpp把检查点删除了,下一轮,IDE又把带着新内容的完整上下文丢进来,就这样,LLM开始疯狂打转了,循环了,温度非常高,但实际是无意义空转。Transformer的架构决定了。二者不同步,后面自然就产生循环了。 所以写程序,还是要知道它的上下文真实限制在哪个位置,并且尽量少给参数。

                        C 1 条回复 最后回复
                        0
                        • S stxpnet

                          今天我还发现一种可能,就是参数超限制了,显存太低,KV CACHE过小 处理不了那么多参数,经过多轮之后,上下文实际已经爆炸了。 但是各种 fork的llama.cpp 处理不了,还硬要装。
                          那有些的默认就删除检查点,删除了检查点,但没通知编程的IDE,这是致命的。 两者已经事实上不同步了。
                          比如IDE里面已有会话内容里面包含了某些参数,但LLM已经在检查点里面把那些参数删除了。
                          llama.cpp把检查点删除了,下一轮,IDE又把带着新内容的完整上下文丢进来,就这样,LLM开始疯狂打转了,循环了,温度非常高,但实际是无意义空转。Transformer的架构决定了。二者不同步,后面自然就产生循环了。 所以写程序,还是要知道它的上下文真实限制在哪个位置,并且尽量少给参数。

                          C 离线
                          C 离线
                          c0aster
                          编写于 最后由 编辑
                          #12

                          @stxpnet 应该是这个问题,我让他修BUG,最后循环胡说了

                          1 条回复 最后回复
                          0
                          • S 离线
                            S 离线
                            stxpnet
                            技术大牛 劳动模范
                            编写于 最后由 编辑
                            #13

                            beellama的内存和显存管理我一直没搞懂,这几天我看它的说是什么环形内存. 反正显存总是有那么2-4G空着,感觉怪怪的.

                            1 条回复 最后回复
                            0
                            • C 离线
                              C 离线
                              c0aster
                              编写于 最后由 编辑
                              #14

                              反正跑不满,然后就check point,重新生成缓存,就这个时间也长,24G内存还是少了

                              1 条回复 最后回复
                              0
                              • S 离线
                                S 离线
                                stxpnet
                                技术大牛 劳动模范
                                编写于 最后由 编辑
                                #15

                                咋说呢,我也想上另一张3090. 但是又感觉咱们这个单卡还有点优化空间。

                                C 1 条回复 最后回复
                                0
                                • S stxpnet

                                  咋说呢,我也想上另一张3090. 但是又感觉咱们这个单卡还有点优化空间。

                                  C 离线
                                  C 离线
                                  c0aster
                                  编写于 最后由 编辑
                                  #16

                                  @stxpnet 等抄你作业,我现在跑的3090club

                                  1 条回复 最后回复
                                  0

                                  你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                  厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                  有了你的建议,这篇帖子会更精彩哦 💗

                                  注册 登录
                                  回复
                                  • 在新帖中回复
                                  登录后回复
                                  • 从旧到新
                                  • 从新到旧
                                  • 最多赞同


                                  • 登录

                                  • 没有帐号? 注册

                                  • 第一个帖子
                                    最后一个帖子
                                  0
                                  • 版块
                                  • 最新
                                  • 标签
                                  • 热门
                                  • 用户
                                  • 群组