跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 2080Ti 22G魔改版+llama.cpp pr-22673开启MTP Chat场景TPS提升20%左右

2080Ti 22G魔改版+llama.cpp pr-22673开启MTP Chat场景TPS提升20%左右

已定时 已固定 已锁定 已移动 LLM讨论区
17 帖子 9 发布者 950 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • terryT 离线
    terryT 离线
    terry
    超级版主
    发表于 最后由 编辑
    #6

    精品,2080Ti还挺不错的,我被打脸了啊。

    油管:https://www.youtube.com/@抡锤者

    williamlouisW 1 条回复 最后回复
    0
    • terryT terry

      精品,2080Ti还挺不错的,我被打脸了啊。

      williamlouisW 在线
      williamlouisW 在线
      williamlouis
      超级版主
      发表于 最后由 编辑
      #7

      @terry 没有。显卡核心问题。这玩意上不了天的。

      个人主页:xlkj.org Telegram https://t.me/xlkjorg

      1 条回复 最后回复
      0
      • terryT terry 于 将此主题固定
      • 系统 于 取消固定此主题
      • E 离线
        E 离线
        ezios
        发表于 最后由 编辑
        #8

        很有参考意义,我最近打算上车2080ti22试试😢

        1 条回复 最后回复
        0
        • J 离线
          J 离线
          joker_chang
          德高望重 劳动模范
          发表于 最后由 编辑
          #9

          我在windows10上编译整合了MTP的llama.cpp的主干代码,在3090Ti24G上只能跑到8tokens/s,还不如LM Studio的效果好。准备按照大大的操作重新拉分支再编译一个版本看看。

          不至于windows和linux的差距有这么大把~
          dcf43191-b052-4feb-a61f-2cf96bead74f-image.jpeg

          1 条回复 最后回复
          0
          • D 离线
            D 离线
            davidwei0826
            发表于 最后由 编辑
            #10

            前几天看到MTP的PR合并主线了,拉下来编译了一下,配合unsloth的带TPM的Q4量化模型,感觉这个显卡还可以再战。
            Qwen3.6-35B-A3B Q4_K_M, 双卡, 101.89 TPS

            model test t/s peak t/s ttfr (ms) est_ppt (ms) e2e_ttft (ms)
            qwen3.6-35B llama.cpp pp2048 977.46 ± 210.02 2064.32 ± 518.14 2039.35 ± 518.14 2064.32 ± 518.14
            qwen3.6-35B llama.cpp tg32 101.89 ± 5.71 105.21 ± 5.85

            Qwen3.6-27B Q4_K_M, 双卡, 36.4 TPS

            model test t/s peak t/s ttfr (ms) est_ppt (ms) e2e_ttft (ms)
            qwen3.6-27B llama.cpp pp2048 452.44 ± 41.05 4259.39 ± 584.84 4239.24 ± 584.84 4259.39 ± 584.84
            qwen3.6-27B llama.cpp tg32 36.40 ± 1.42 37.56 ± 1.44

            Qwen3.6-35B-A3B,有没有NVLink速度都差不多; Qwen3.6-27B,没有NVLINK的话, TPS稍微少一点,在30左右,不如单卡。
            但是2080Ti 22G这个卡,单卡跑不了Qwen3.6-35B-A3B Q4_K_M, 我上面帖子那个跑27B模型的,也不是特别稳定,一周遇到两次OOM. 所以如果不是双卡,就不要挂mmproj了,很容易OOM.
            还有, 最近用Qwen3.6-35B-A3B 配合Hermes,感觉没有想象的那么拉。任务简单一点,基本都能做,结果也能接受。太复杂的任务,在另一个连着GLM-5.1或者MINIMAX2.7的Hermes上跑一下,然后复制过来就行了,私密场景的,也没有特别复杂的任务。配合100多TPS的速度,整体感觉很爽。

            PS: 这两张卡是去年买了,总成本5k,现在我看4k就能拿下了,建议如果只跑Hermes,能接受Qwen3.6-35B-A3B 智商的,可以入,还能战。

            c0dbefa4-87be-4bbe-b941-b3f931927c45-image.jpeg
            6dc648a5-acba-4dc9-ba4b-887b4382dfc6-image.jpeg
            068cd73d-cc4d-4b3f-a767-aeaa31982d43-image.jpeg

            1 条回复 最后回复
            0
            • sirwangS 在线
              sirwangS 在线
              sirwang
              超级版主
              发表于 最后由 编辑
              #11

              我还有两张2080ti-22G,回头试一下,感谢。

              1 条回复 最后回复
              0
              • E 离线
                E 离线
                ezios
                发表于 最后由 编辑
                #12

                请问27B的prompt处理速度是多少?我现在峰值600,慢慢就到500左右了,体感不好。35BA3B可以上千。按理说都在显存里,应该很快呀。

                Q4KM的还行,UD的不行,说多了爆显存

                version = 1
                
                [*]
                parallel = 1
                
                n-gpu-layers = 999
                
                ctx-size = 65536
                predict = 8192
                
                flash-attn = on
                
                cache-type-k = q4_0
                cache-type-v = q4_0
                
                threads = 8
                threads-batch = 16
                
                batch-size = 8192
                ubatch-size = 512
                
                jinja = true
                reasoning = off
                reasoning-budget = 0
                
                cache-prompt = true
                cache-reuse = 256
                
                kv-offload = true
                kv-unified = true
                context-shift = true
                
                no-mmap = true
                
                temp = 0.6
                top-p = 0.9
                top-k = 40
                min-p = 0.0
                
                presence-penalty = 0.0
                repeat-penalty = 1.03
                
                load-on-startup = false
                stop-timeout = 10
                
                [default]
                model = C:\models\Qwen3.6-27B-Q4_K_M.gguf
                ; 128k
                ctx-size = 131072
                spec-type = draft-mtp
                spec-draft-n-max = 2
                
                cache-type-k-draft = q4_0
                cache-type-v-draft = q4_0
                
                batch-size = 8192
                ubatch-size = 1024
                
                [qwen36-27b-ud-q4k-xl-hermes-fast-read]
                model = C:\models\Qwen3.6-27B-UD-Q4_K_XL.gguf
                ; 128k
                ctx-size = 131072
                spec-type = draft-mtp
                spec-draft-n-max = 1
                
                cache-type-k-draft = q4_0
                cache-type-v-draft = q4_0
                
                batch-size = 16384
                ubatch-size = 1024
                
                Tony WangT 1 条回复 最后回复
                0
                • D 离线
                  D 离线
                  davidwei0826
                  发表于 最后由 编辑
                  #13

                  你是说prefill? pp2048:452.44 ± 41.05 。 35B-A3B可以到977.46 ± 210.02
                  aa9c4efc-351d-45f5-9b68-5c397e359198-image.jpeg

                  E 1 条回复 最后回复
                  0
                  • E ezios

                    请问27B的prompt处理速度是多少?我现在峰值600,慢慢就到500左右了,体感不好。35BA3B可以上千。按理说都在显存里,应该很快呀。

                    Q4KM的还行,UD的不行,说多了爆显存

                    version = 1
                    
                    [*]
                    parallel = 1
                    
                    n-gpu-layers = 999
                    
                    ctx-size = 65536
                    predict = 8192
                    
                    flash-attn = on
                    
                    cache-type-k = q4_0
                    cache-type-v = q4_0
                    
                    threads = 8
                    threads-batch = 16
                    
                    batch-size = 8192
                    ubatch-size = 512
                    
                    jinja = true
                    reasoning = off
                    reasoning-budget = 0
                    
                    cache-prompt = true
                    cache-reuse = 256
                    
                    kv-offload = true
                    kv-unified = true
                    context-shift = true
                    
                    no-mmap = true
                    
                    temp = 0.6
                    top-p = 0.9
                    top-k = 40
                    min-p = 0.0
                    
                    presence-penalty = 0.0
                    repeat-penalty = 1.03
                    
                    load-on-startup = false
                    stop-timeout = 10
                    
                    [default]
                    model = C:\models\Qwen3.6-27B-Q4_K_M.gguf
                    ; 128k
                    ctx-size = 131072
                    spec-type = draft-mtp
                    spec-draft-n-max = 2
                    
                    cache-type-k-draft = q4_0
                    cache-type-v-draft = q4_0
                    
                    batch-size = 8192
                    ubatch-size = 1024
                    
                    [qwen36-27b-ud-q4k-xl-hermes-fast-read]
                    model = C:\models\Qwen3.6-27B-UD-Q4_K_XL.gguf
                    ; 128k
                    ctx-size = 131072
                    spec-type = draft-mtp
                    spec-draft-n-max = 1
                    
                    cache-type-k-draft = q4_0
                    cache-type-v-draft = q4_0
                    
                    batch-size = 16384
                    ubatch-size = 1024
                    
                    Tony WangT 离线
                    Tony WangT 离线
                    Tony Wang
                    超级版主
                    发表于 最后由 编辑
                    #14

                    @ezios
                    prompt 处理要靠算力, 因为要把参数都算一遍. decode主要靠显存带宽. 所以 27B 和 A3B 的速度差异很大.

                    E 1 条回复 最后回复
                    0
                    • D davidwei0826

                      你是说prefill? pp2048:452.44 ± 41.05 。 35B-A3B可以到977.46 ± 210.02
                      aa9c4efc-351d-45f5-9b68-5c397e359198-image.jpeg

                      E 离线
                      E 离线
                      ezios
                      发表于 最后由 编辑
                      #15

                      @davidwei0826 我跟你这差不多,看来到极限了

                      1 条回复 最后回复
                      0
                      • Tony WangT Tony Wang

                        @ezios
                        prompt 处理要靠算力, 因为要把参数都算一遍. decode主要靠显存带宽. 所以 27B 和 A3B 的速度差异很大.

                        E 离线
                        E 离线
                        ezios
                        发表于 最后由 编辑
                        #16

                        @Tony-Wang 看来没啥好优化的了,但是没得说,27b干活是真爽

                        1 条回复 最后回复
                        0
                        • terryT terry 于 将此主题固定
                        • 元气堡AI智能元 离线
                          元气堡AI智能元 离线
                          元气堡AI智能
                          发表于 最后由 编辑
                          #17

                          根据https://www.youtube.com/watch?v=nU9c-PffHPg&t=361s,我用2080ti22G可以跑qwen3.6-35b模型24token/s
                          cuda下载是12.4
                          启动参数
                          @echo off
                          chcp 65001 >nul
                          cd /d C:\llm

                          llama-server.exe ^
                          -m "models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" ^
                          --mmproj "models\mmproj-BF16.gguf" ^
                          -ngl 99 ^
                          --n-cpu-moe 999 ^
                          --flash-attn on ^
                          --jinja ^
                          -c 65536 ^
                          -t 10 ^
                          -b 4096 ^
                          -ub 128 ^
                          --cache-type-k q4_0 ^
                          --cache-type-v q4_0 ^
                          --mlock ^
                          --host 127.0.0.1 ^
                          --port 8080

                          pause

                          1 条回复 最后回复
                          0
                          • 系统 于 取消固定此主题

                          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                          有了你的建议,这篇帖子会更精彩哦 💗

                          注册 登录
                          回复
                          • 在新帖中回复
                          登录后回复
                          • 从旧到新
                          • 从新到旧
                          • 最多赞同


                          • 登录

                          • 没有帐号? 注册

                          • 第一个帖子
                            最后一个帖子
                          0
                          • 版块
                          • 最新
                          • 标签
                          • 热门
                          • 用户
                          • 群组