跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 3090单卡终极测试,opencode(oh-my-opencode) 一个LLM分饰多角。

3090单卡终极测试,opencode(oh-my-opencode) 一个LLM分饰多角。

已定时 已固定 已锁定 已移动 LLM讨论区
16 帖子 4 发布者 130 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • S 离线
    S 离线
    stxpnet
    技术大牛 劳动模范
    编写于 最后由 编辑
    #2

    我确认已经把每个模型都换成了qwen 27b本地显卡,但是有时候opencode的token数不会涨,llama.cpp后台也没反应,真奇怪。

    1 条回复 最后回复
    0
    • XiaoteX 离线
      XiaoteX 离线
      Xiaote
      劳动模范
      编写于 最后由 编辑
      #3

      @opencode user 提到的token数不涨的问题,我遇到过类似的情况,分享一下排查思路:

      1. llama.cpp后端卡住:如果llama.cpp后台完全没反应(CPU/GPU占用不增加),说明opencode发起的请求可能没有被正确路由到后端。可以检查一下llama.cpp的log,看是否有incoming request。如果完全没有,可能是opencode的服务发现机制出了问题——它默认按进程名或者端口找后端,多开几个llama.cpp实例容易串。

      2. MTP模式下draft模型卡住:你用了ik-llama-cpp的MTP模式,如果draft model(小模型)出现了OOM或者推理异常,speculative decoding会卡死在等待draft的阶段。opencode的token计数是基于返回的token,draft不出结果它就等。

      3. --temp参数的影响:你在TID:635推荐了--temp 0.7,这个温度对于编码场景其实偏高。如果opencode的system prompt里有严格的JSON schema要求(tool calling需要结构化输出),温度太高会导致模型生成不符合schema的内容,llama.cpp反复重试但opencode不认,看起来就是token数不涨。

      建议排查步骤:

      1. 先关掉MTP(去掉--speculative-config参数),用纯模式跑一次
      2. 调低温度为0.3-0.5(编码场景)
      3. 检查llama.cpp的server log有没有"POST /completion"的请求进来
      4. 如果还是没有,换个端口单独起一个llama.cpp server,在opencode里手动指定API endpoint

      我之前TID:554里也遇到过类似路由问题,当时是Codex的模型选择逻辑坑人,opencode的原理也差不多。

      1 条回复 最后回复
      0
      • S stxpnet

        今天测试配置

          #编程比较 好的 ,使用beellama3.2预览版,支持华为kv cache格式 注意:
              #模型卡明确 67% 是无思考模式刷的,做 SWE-bench 类评测时建议关思考;做真实复杂调试时再开,二者不要混用同一套采样预算预期
              # --ctx-size 131072 \ 
               #--rope-scaling yarn --yarn-orig-ctx 32768 --rope-scale 4 \ 配套使用,这是按模型卡上提示的加入yarn扩展命令,如果不按倍数添加,可能导致注意力漂移。
             killall llama3-server 2>/dev/null; sleep 3
             killall llama-server 2>/dev/null; sleep 3
           export LD_LIBRARY_PATH=/data/models/beellma616-kv.cpp/build/bin:$LD_LIBRARY_PATH
               /data/model2/beellma616-kv.cpp/build/bin/llama-server \
              --host 0.0.0.0 --port 8025 \
              -m /data/model3/qowpus-coder616/Qwopus3.6-27B-Coder-MTP-Q5_K_M.gguf \
              --mmproj /data/models/Qwopus3.6-27B-Coder-mmproj-F32.gguf \
              --spec-type draft-mtp \
              --spec-draft-n-max 3 \
              --api-key "sk-my-tnt-secret-key-1234567890" \
              -ngl all \
              -n 10240 \
              --ctx-size 131072 \
               --rope-scaling yarn --yarn-orig-ctx 32768 --rope-scale 4 \
              -b 2048 -ub 256 \
              -np 1 \
              --kv-unified \
              --cache-type-k kvarn5 \
              --cache-type-v kvarn5 \
              --cache-ram 16384  --mlock \
              --no-host \
              --jinja \
              --chat-template-kwargs '{"preserve_thinking":true}' \
              --chat-template-file /data/model2/chat_template-fixed-v20.jinja \
             --no-warmup --reasoning on -fa on  --reasoning-format deepseek --reasoning-budget 2048 \
             --temp 0.6 --top-p 0.96 --top-k 20 --min-p 0.05
        

        还是同一套中国象棋的提示词,在opencode里面按F2把模型全部换成qwen 27B Q5KM.
        (我想让它们共享同一个上下文)
        93799654-09e0-4dd2-9693-6f9b0e8ef61d-image.jpeg
        50e811c2-c13f-4ef2-aa3a-f6734a3d4ef5-image.jpeg
        这个配置开局显存就只剩500M,突然有点后悔开视觉了。
        在它跑到大概60%的时候,用了62.5K上下文了 ,速度已经从59T/S 掉到40T/S, 感觉这个Q5K 在3090上就只能跑10万左右的上下文,并且新建项目时 还不能用0.6的温度,用0.63或者高一点(但是高温写出来的程序大多数有BUG)。。。。

        中间过程会有英文穿插,这是正常的,正是v20那个模板文件发挥了作用,让IDE可以toolcall和模型交互,这可以节省token.本地显卡也要节省token,否则上下文爆炸会变卡。

        J 离线
        J 离线
        johnnybegood
        德高望重 劳动模范
        编写于 最后由 编辑
        #4

        @stxpnet 说:

        qwen 27B Q5KM.

        opencode 不好用, 感觉他自己就非常占资源了

        1 条回复 最后回复
        0
        • S 离线
          S 离线
          stxpnet
          技术大牛 劳动模范
          编写于 最后由 stxpnet 编辑
          #5

          56e67348-33b7-4162-91ba-bf559eed803f-image.jpeg
          下午搞错了,导致那个文件夹的配置有问题,现在新建一个文件夹可以开工了。 开局规划了一下消耗34K token.

          用的模型是这款:
          https://hf-mirror.com/Jackrong/Qwopus3.6-27B-Coder-MTP-GGUF/tree/main

          45b07d14-181a-4c5d-8b44-469b6e2b6c34-image.jpeg
          目前思考中,轻微掉速 。131K 上下文:
          fe6a10cf-69cb-4778-957b-91c5243aa9fd-image.jpeg

          显卡还有6G在睡觉。感觉有点浪费啊,赶紧去下载一个Q4_KM压压惊。

          1 条回复 最后回复
          0
          • S 离线
            S 离线
            stxpnet
            技术大牛 劳动模范
            编写于 最后由 stxpnet 编辑
            #6

            01fa8eb6-7685-4318-8f93-6fc454325696-image.jpeg
            20分钟过去了,现在应该全部都是用的本地显卡在跑。 速度有点慢,TOKEN才用了44K。而且它总是不调用我的qwen3.5 9B(另一台ubuntu p100 16G显卡驱动的)。 不过我之前用trae让它solo跑这个提示词似乎也要半小时左右才能写好。
            这种一般写着写着就会 变成全英文,因为它的toolcall的模板里面就是英文的,所以几个角色之间交互多了,它就直接上英文了。

            1 条回复 最后回复
            0
            • S 离线
              S 离线
              stxpnet
              技术大牛 劳动模范
              编写于 最后由 编辑
              #7

              916ab044-b3f6-49e3-a957-f836a6ebdd20-image.jpeg
              这个提示似乎表明它上网去搜索了借鉴了AI算法:很好,这对实践很有意义啊,不要老是在270亿Q4量化的参数里面去找知识,善用外部资源才是王道 。

              1 条回复 最后回复
              0
              • S 离线
                S 离线
                stxpnet
                技术大牛 劳动模范
                编写于 最后由 stxpnet 编辑
                #8

                036e35b7-61ec-4f89-8bd5-c9b231fac541-image.jpeg
                已经1小时了,如果把它看作agent的话,应该已经到了颅内高 潮了吧?目前应该是项目使用参数最多的时候,但它的算力是有限的,后期如果opencode那边的计算需要没有降下来,随着参数的增加,LLM的生成 速度应该要开始衰减了。

                1 条回复 最后回复
                0
                • S 离线
                  S 离线
                  stxpnet
                  技术大牛 劳动模范
                  编写于 最后由 编辑
                  #9

                  ef804795-ae08-48ff-ae45-799d2e5bfe49-image.jpeg
                  这才把计划做好,让我选择要不要 高精度需求Review,这不是实际工程,我肯定选直接开工啊!

                  1 条回复 最后回复
                  0
                  • S 离线
                    S 离线
                    stxpnet
                    技术大牛 劳动模范
                    编写于 最后由 stxpnet 编辑
                    #10

                    此时上下文已经到100K了,
                    我看了一下它的计划文档,做得有点过于详细了。

                    d672d166-84de-4168-9a87-f82a3a228244-image.jpeg

                    在TRAE那个全栈AI程序员那些,就不是这样的。
                    目前还不知道超过131K限制了会怎样。opencode的配置里面并没写入模型的上下文大小。
                    51b91707-ac59-41cc-a885-1c69cbfcdc7a-image.jpeg
                    现在提示我输入命令开始工作。😂 😂 😂 ,我选择休息3分钟,让显卡降降温。目前显卡占用还是20.8G,剩余3.2G

                    1 条回复 最后回复
                    0
                    • S 离线
                      S 离线
                      stxpnet
                      技术大牛 劳动模范
                      编写于 最后由 stxpnet 编辑
                      #11

                      21d28e79-aa8e-4b76-8d36-758d1eaa357a-image.jpeg

                      目前opencode里显示的上下文 已经来到150K了,llama.cpp这边居然没报错,nvtop显示还是20.79G显存占用,稳如老狗。 不过刚才有留意到llama.cpp的日志 提示删除检查点。 看来上下文 已经开始滚动覆盖了!

                      生成速度的话,目前到158K上下文了,我观察的是在45-60T/S之间反复横跳。

                      4cc34a49-a97e-42b0-b84d-441c25ab90ff-image.jpeg
                      另外就是这个lazy grammer的彩色日志老是出现,不知道有无影响 。

                      1 条回复 最后回复
                      0
                      • S 离线
                        S 离线
                        stxpnet
                        技术大牛 劳动模范
                        编写于 最后由 编辑
                        #12

                        上下文爆了一次(168K),现在我将上下文增加到200K,ubatch减小为256,再重试,
                        71ac9fd7-8710-4f97-a7a2-09c515e34e1c-image.jpeg

                        又产生循环了,强行中止,让plan executor从发生 错误的位置开始继续干活。

                        1 条回复 最后回复
                        0
                        • S 离线
                          S 离线
                          stxpnet
                          技术大牛 劳动模范
                          编写于 最后由 编辑
                          #13

                          a667ab43-0c12-48cb-85a1-ae6c5e22022d-image.jpeg 经过几次调整参数和修改策略,勉强跑到这个程度。 其中我在60%上下文的时候应该寻找时机压缩一次的。 opencode不像hermes那样有自动压缩机制。 现在压缩一下看能不能救回来

                          1 条回复 最后回复
                          0
                          • S 离线
                            S 离线
                            stxpnet
                            技术大牛 劳动模范
                            编写于 最后由 编辑
                            #14

                            3090显卡支撑不了2000行的单文件,烂尾了,反思一下,以后如果要用它写小项目,单文件一定不能超过500-800行,否则它会把一个文件放到全部上下文里面去写,造成循环或者崩溃。
                            以前 用trae写出来能用的代码最多也就1200行。

                            1 条回复 最后回复
                            0
                            • 5 离线
                              5 离线
                              566656661
                              超凡大师
                              编写于 最后由 566656661 编辑
                              #15

                              Opencode沒辦法自動Compact這個也算一個敗筆了, 試試看Cline吧

                              不過理論上也不應該叫主Agent去做這種事吧

                              通常都是跟主Agent敲定好每個Subagent要做什麽然後叫它們自己安排, Agent負責協調跟報告就好

                              1 条回复 最后回复
                              0
                              • S 离线
                                S 离线
                                stxpnet
                                技术大牛 劳动模范
                                编写于 最后由 编辑
                                #16

                                综合这么多天的实践,我最终留了 两套配置:

                                620-23pm 最终给hermes用的
                                                  killall llama3-server 2>/dev/null; sleep 3
                                     killall llama-server 2>/dev/null; sleep 3
                                   export LD_LIBRARY_PATH=/data/models/beellma616-kv.cpp/build/bin:$LD_LIBRARY_PATH
                                       /data/model2/beellma616-kv.cpp/build/bin/llama-server \
                                      --host 0.0.0.0 --port 8025 \
                                      -m /data/models/Qwopus3.6-27B-v2-MTP-IQ4_XS.gguf \
                                      --spec-type draft-mtp \
                                      --spec-draft-n-max 3 \
                                      -ngl all \
                                      --ctx-size 163840 -n 12000 \
                                      --rope-scaling yarn --yarn-orig-ctx 32768 --rope-scale 5 \
                                      -b 2048 -ub 512 \
                                      -np 1 \
                                      --kv-unified \
                                      --cache-type-k kvarn4 \
                                      --cache-type-v kvarn4 \
                                      --cache-ram 8192 --no-mmap --mlock \
                                      --no-host \
                                      --jinja \
                                      --no-warmup --reasoning off -fa on   \
                                      --temp 0.7 --top-p 0.83 --top-k 20 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0
                                
                                  /data/model2/Qwopus3.6-27B-Coder-MTP-Q4_K_M.gguf 质量可能更高一些 前期60T/S
                                                    killall llama3-server 2>/dev/null; sleep 3
                                     killall llama-server 2>/dev/null; sleep 3
                                   export LD_LIBRARY_PATH=/data/models/beellma616-kv.cpp/build/bin:$LD_LIBRARY_PATH
                                       /data/model2/beellma616-kv.cpp/build/bin/llama-server \
                                      --host 0.0.0.0 --port 8025 \
                                      -m /data/model2/Qwopus3.6-27B-Coder-MTP-Q4_K_M.gguf \
                                      --spec-type draft-mtp \
                                      --spec-draft-n-max 3 \
                                      -ngl all \
                                      --ctx-size 163840 -n 16000 \
                                      --rope-scaling yarn --yarn-orig-ctx 32768 --rope-scale 5 \
                                      -b 2048 -ub 512 \
                                      -np 1 \
                                      --kv-unified \
                                      --cache-type-k kvarn4 \
                                      --cache-type-v kvarn4 \
                                      --cache-ram 10240 --no-mmap --mlock \
                                      --no-host \
                                      --jinja \
                                      --no-warmup --reasoning off -fa on   \
                                      --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.05 --repeat-penalty 1.0    
                                
                                1 条回复 最后回复
                                0

                                你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                有了你的建议,这篇帖子会更精彩哦 💗

                                注册 登录
                                回复
                                • 在新帖中回复
                                登录后回复
                                • 从旧到新
                                • 从新到旧
                                • 最多赞同


                                • 登录

                                • 没有帐号? 注册

                                • 第一个帖子
                                  最后一个帖子
                                0
                                • 版块
                                • 最新
                                • 标签
                                • 热门
                                • 用户
                                • 群组