跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 3090 24G 跑QWEN 3.6 27B 152K上下文 KV(Q8_0) 55TOK/S 智能开关思考- 最终配置,再也不折腾了(还请大神指教)

3090 24G 跑QWEN 3.6 27B 152K上下文 KV(Q8_0) 55TOK/S 智能开关思考- 最终配置,再也不折腾了(还请大神指教)

已定时 已固定 已锁定 已移动 LLM讨论区
19 帖子 10 发布者 283 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • williamlouisW williamlouis

    进 BIOS 找 IGD Memory / DVMT Pre-Allocated:把这个值设到最低(通常是 64M 或 32M),而不是 Auto 或 256M/512M 这个是正解。很懒只能这么回答了。

    S 在线
    S 在线
    stxpnet
    编写于 最后由 编辑
    #6

    @williamlouis 感谢,晚上回家试试. 😁

    1 条回复 最后回复
    0
    • S 在线
      S 在线
      stxpnet
      编写于 最后由 stxpnet 编辑
      #7

      最终决定使用的配置(ubuntu 24.04, CUDA 12.4,按3090参数编译的bofan框架) :

        killall llama-server 2>/dev/null; sleep 3
      cd /data/model2/bofan-llama.cpp/build/bin
      CUDA_SCALE_LAUNCH_QUEUES=4x \
      ./llama-server \
        -m /data/models/qwen3.6-27b-gguf/Qwen3.6-27B-MTP-IMAT-IQ4_XS-Q8nextn.gguf \
        -c 152000 \ 这个务必多多测试再确定一个合适的值,不要用于生产,防止爆显存导致影响工作进度 。
        -ngl 9999 \
        -fa on --metrics \
        -ctk q8_0 -ctv q8_0 \ 编程任务才需要这个,如果你只是问答和驱动hermes跑简单任务,可以 关思考这两项改为Q4,上下文应该 可以 进一步拉高。 
        --spec-type mtp \
        --spec-draft-n-max 3 \
        --jinja \
        --chat-template-file /data/model2/bofan-llama.cpp/3.6_chat_template-v10.jinja \ #这行非常重要它确保能使用自动思考功能. 
        --temp 0.6 \ 编程任务的推荐值
        --min-p 0.04 --top_p 0.95 \ 
        --mlock -np 1 -t 6 -tb 6 \
        -b 4096 -ub 512 \  这两个参数,在首次写代码的时候,如果你估计产生的BUG不多的情况下,可以同时加倍甚至改成8192/2048,这样预填充速度会快很多的,从而加速任务. 但在上下文满的时候,OOM风险也会爆增,所以要自己权衡.在编程任务的时候务必紧盯NVTOP.  
        --host 0.0.0.0 --port 8025 \
        --reasoning auto \
        --reasoning-format deepseek --reasoning-budget 3072
      

      跑一下论坛那个128K 测试, 跑完了显存占用23GB
      用时60秒,比之前的框架的70秒 要快:
      da0d604d-d0c0-4fd9-abfb-bb7e8fb59aa7-image.jpeg
      最后直接让它写个HTML来自评:
      fc9e9ac0-ec66-43df-871b-8793b0a06e0b-image.jpeg

      质量也是在线的.

      这套配置还有可以打磨的地方,有需要请关注本帖, 过几天我再更新一下.

      1 条回复 最后回复
      0
      • S 在线
        S 在线
        stxpnet
        编写于 最后由 stxpnet 编辑
        #8

        附我的HERMES解析出的bofan框架自动思考实现路径.

        这个自动思考功能有三层控制:                                                                                                                                                  
                                                                                                                                                                                                   
             第一层:默认阈值(模板内置)                                                                                                                                                          
                                                                                                                                                                                                   
             短问题阈值: 30 字符  →  ≤30 字符自动跳过思考,秒回                                                                                                                                    
             强制思考阈值: 300 字符 → ≥300 字符强制深度推理                                                                                                                                        
             中间区域(31~299): 维持 enable_thinking 默认值(true),走思考模式                                                                                                                       
                                                                                                                                                                                                   
             第二层:API 调用时覆盖阈值                                                                                                                                                            
                                                                                                                                                                                                   
             通过 chat_template_kwargs 传入自定义值:                                                                                                                                              
                                                                                                                                                                                                   
             json                                                                                                                                                                                  
             {                                                                                                                                                                                     
               "messages": ,                                                                                                                                                                  
               "chat_template_kwargs": {                                                                                                                                                           
                 "enable_thinking": true,                                                                                                                                                          
                 "auto_think_short_threshold": 50,                                                                                                                                                 
                 "auto_think_force_threshold": 500                                                                                                                                                 
               }                                                                                                                                                                                   
             }                                                                                                                                                                                     
                                                                                                                                                                                                   
             设为 {"enable_thinking": false} 可以完全关闭自动判断。                                                                                                                                
                                                                                                                                                                                                   
             第三层:消息内嵌标签(最灵活,实时切换)                                                                                                                                              
                                                                                                                                                                                                   
             在 system prompt 或 user 消息中插入标签:                                                                                                                                             
                                                                                                                                                                                                   
             <|think_off|>  →  强行关闭思考(当前消息及后续)                                                                                                                                      
             <|think_on|>   →  强行开启思考                                                                                                                                                        
                                                                                                                                                                                                   
             标签在渲染时自动移除,模型看不到。                                                                                                                                                    
                                                                                                                                                                                                   
             实际效果流程:                                                                                                                                                                        
                                                                                                                                                                                                   
             用户问"你好" (2字)                                                                                                                                                                    
               → 2 ≤ 30 → enable_thinking=false                                                                                                                                                    
               → 模板输出: \n\n  (空思考块)                                                                                                                                                        
               → 模型跳过思考,直接回答                                                                                                                                                            
                                                                                                                                                                                                   
             用户问"请详细解释Transformer架构中多头注意力的数学原理..." (长文)                                                                                                                     
               → 字数 ≥ 300 → enable_thinking=true                                                                                                                                                 
               → 模板输出: \n                                                                                                                                                                      
               → 模型进入深度推理模式                                                                                                                                                              
                                                                                                                                                                                                   
             当前你的启动命令里 --reasoning auto --reasoning-format deepseek 配合这个模板,llama-server 会自动解析 thinking 块分离显示。不需要改命令行参数,阈值调整通过 API 调用时的              
             chat_template_kwargs 传就行。  
        

        最后让hermes来个总结吧(忽略我懒得改的模型名称):
        3fd386a7-6daa-420d-b1ce-a44639a29202-image.jpeg

        11926396-954f-4fbd-8f30-116731e0ef9b-image.jpeg

        1 条回复 最后回复
        0
        • C 离线
          C 离线
          c0aster
          编写于 最后由 编辑
          #9

          我直接用的3090club的 ik_llama + IQ4_KS + MTP,对比你自行编译的BoFan的分支,是哪个强?

          毅袁毅 1 条回复 最后回复
          0
          • S 在线
            S 在线
            stxpnet
            编写于 最后由 编辑
            #10

            晚些时间 我详细评测吧,感觉咱们论坛3090的卡友还挺多的,有没有 一个群组呢?

            C 1 条回复 最后回复
            0
            • S stxpnet

              晚些时间 我详细评测吧,感觉咱们论坛3090的卡友还挺多的,有没有 一个群组呢?

              C 离线
              C 离线
              c0aster
              编写于 最后由 编辑
              #11

              @stxpnet 我觉得可以整一个3090的交流,方便大家共享最最佳配置

              CS6C 1 条回复 最后回复
              1
              • C c0aster

                @stxpnet 我觉得可以整一个3090的交流,方便大家共享最最佳配置

                CS6C 在线
                CS6C 在线
                CS6
                编写于 最后由 编辑
                #12

                @c0aster 有需要!我剛買一張

                1 条回复 最后回复
                0
                • ran zR 离线
                  ran zR 离线
                  ran z
                  编写于 最后由 编辑
                  #13

                  5090移动版也是24g,能抄作业吗?

                  terryT 1 条回复 最后回复
                  0
                  • A 离线
                    A 离线
                    applejuice
                    编写于 最后由 applejuice 编辑
                    #14

                    我用vllm 双卡没有NVLINK

                    Prefill 4K 重复测量 (5 次)

                    run prompt_tokens ttft tok/s
                    1 3 836 2 776 ms 1 382
                    2 3 836 2 735 ms 1 403
                    3 3 834 2 665 ms 1 439
                    4 3 833 2 770 ms 1 384
                    5 3 838 2 772 ms 1 384

                    Decode 单流 重复测量 (4 次)

                    run prompt_tokens completion_tokens ttft decode tok/s
                    1 76 220 256 ms 66.2
                    2 79 220 278 ms 66.6
                    3 81 220 284 ms 66.7
                    4 80 220 284 ms 66.7
                    1 条回复 最后回复
                    0
                    • ran zR ran z

                      5090移动版也是24g,能抄作业吗?

                      terryT 在线
                      terryT 在线
                      terry
                      超级版主
                      编写于 最后由 编辑
                      #15

                      @ran-z 5090移动版也快很多,有啥不能抄的?

                      油管:https://www.youtube.com/@抡锤者

                      1 条回复 最后回复
                      0
                      • C c0aster

                        我直接用的3090club的 ik_llama + IQ4_KS + MTP,对比你自行编译的BoFan的分支,是哪个强?

                        毅袁毅 在线
                        毅袁毅 在线
                        毅袁
                        编写于 最后由 编辑
                        #16

                        @c0aster 感谢分享,已经按照ik-llama实施,实测Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_M.gguf达到69t/s,已经能够满足生产力需求了

                        C 1 条回复 最后回复
                        0
                        • 毅袁毅 毅袁

                          @c0aster 感谢分享,已经按照ik-llama实施,实测Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_M.gguf达到69t/s,已经能够满足生产力需求了

                          C 离线
                          C 离线
                          c0aster
                          编写于 最后由 编辑
                          #17

                          @毅袁 你不是用的3090clud的脚本是吧,我用3090club的脚本只有40多,你咋能跑69,分享下具体的呗

                          毅袁毅 1 条回复 最后回复
                          0
                          • terryT terry 取消固定了该主题
                          • 5 离线
                            5 离线
                            5ccccc
                            编写于 最后由 编辑
                            #18

                            我今天用7900xtx跑一个本地任务的时候也oom了,参考的论坛内的一个设置

                            1 条回复 最后回复
                            0
                            • C c0aster

                              @毅袁 你不是用的3090clud的脚本是吧,我用3090club的脚本只有40多,你咋能跑69,分享下具体的呗

                              毅袁毅 在线
                              毅袁毅 在线
                              毅袁
                              编写于 最后由 编辑
                              #19

                              @c0aster https://github.com/ikawrakow/ik_llama.cpp 从这个项目自己编译的ik_llama,启动参数如下:
                              start "ik_llama - heretic-v2 27B" "%EXE%" ^
                              -m "J:\llama-b9370-bin-win-cuda-12.4-x64\models\1\Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_M.gguf" ^
                              --mmproj "J:\llama-b9370-bin-win-cuda-12.4-x64\models\1\Qwen3.6-27B-mmproj-BF16.gguf" ^
                              -ngl 99 -c 131072 --threads 12 --no-mmap ^
                              --flash-attn on ^
                              --cache-type-k q4_0 --cache-type-v q4_0 ^
                              --batch-size 512 --ubatch-size 256 ^
                              --merge-qkv --merge-up-gate-experts ^
                              --cache-ram 32768 ^
                              --spec-type mtp:n_max=4,p_min=0.0 ^
                              --jinja --chat-template-file "%TEMPLATE%" ^
                              --timeout 3600 --host 0.0.0.0 --port 8080

                              1 条回复 最后回复
                              0

                              你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                              厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                              有了你的建议,这篇帖子会更精彩哦 💗

                              注册 登录
                              回复
                              • 在新帖中回复
                              登录后回复
                              • 从旧到新
                              • 从新到旧
                              • 最多赞同


                              • 登录

                              • 没有帐号? 注册

                              • 登录或注册以进行搜索。
                              • 第一个帖子
                                最后一个帖子
                              0
                              • 版块
                              • 最新
                              • 标签
                              • 热门
                              • 用户
                              • 群组