跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 2080Ti 22G魔改版+llama.cpp pr-22673开启MTP Chat场景TPS提升20%左右

2080Ti 22G魔改版+llama.cpp pr-22673开启MTP Chat场景TPS提升20%左右

已定时 已固定 已锁定 已移动 LLM讨论区
17 帖子 9 发布者 950 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • D 离线
    D 离线
    davidwei0826
    发表于 最后由 编辑
    #1

    今天看到一篇微信公众号文章: https://mp.weixin.qq.com/s/KQo-UBEOvtRMW5dK1bz6PQ
    按照文章内容搭建了测试环境:

    git clone https://github.com/ggml-org/llama.cpp llama.cpp-mtp
    cd llama.cpp-mtp
    git fetch origin pull/22673/head:pr-22673
    git checkout pr-22673
    mkdir build && cd build
    cmake .. \
      -DCMAKE_BUILD_TYPE=Release \
      -DGGML_CUDA=ON \
      -DLLAMA_CURL=ON \
      -DGGML_NATIVE=ON \
      -DGGML_CUDA_GRAPHS=ON \
      -DGGML_CUDA_F16=ON \
      -DGGML_CUDA_FA_ALL_QUANTS=ON \
      -DCMAKE_CUDA_ARCHITECTURES=75   # 按需调整,89=Ada/4090,86=Ampere/3090
    cmake --build . --config Release \
      --target llama-server llama-bench --parallel
    

    下载了unsloth的开启MTP模型: https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF/resolve/main/Qwen3.6-27B-Q4_K_M.gguf -O ~/models/Qwen3.6-27B-MTP-Q4_K_M.gguf
    不加载vision的情况下, 启动:

    ~/llama.cpp-mtp/build/bin/llama-server -m ~/models/Qwen3.6-27B-MTP-Q4_K_M.gguf \
    --ctx-size 131072 \
    --n-gpu-layers 999 \
    -fa on \
    --port 8000 \
    --host 0.0.0.0 \
    --cache-type-k q4_0 \
    --cache-type-v q4_0 \
    --no-mmap \
    --no-warmup \
    --reasoning off \
    --jinja \
    --parallel 1 \
    --spec-type mtp \
    --spec-draft-n-max 2 \
    --chat-template-kwargs "{\"enable_thinking\": false, \"preserve_thinking\": false}"
    

    128k上下文,显存占用20.5G,简单用cherrybox提了几个问题,prompt大概2k上下。 TPS从之前的27提升到了33左右。整体感觉快了20%。 coding场景没有测试,理论上应该提升更多。
    另外,对于--spec-draft-n-max 的值,测了1,2,3。发现2时收益最大,能跑到33~34; 1和3都在30上下。 总体都比裸跑有提升。
    最后挂上了vision,发了一张1M左右的图片测试了一下,TPS在28左右,显存占用21.75G。 我准备测几天,看看会不会OOM。
    另外还有一个发现,开了MTP以后,显卡的utility下来了。之前基本上都在95%以上,功率一直顶着上限250W。开了MTP,tps上升的同时,utility基本上都在80%左右,功率也基本上不会满载了。估计是降低了开销,输出也降低,但是被MTP补偿了。

    总体来讲,2080Ti这个卡应该没什么压榨空间了,跑Hermes太慢,适合跑好skill,布置好cron让他后台自己干活,不适合前台交互。
    d7d8fd62-8a01-48ef-8bce-7a9b108e255b-image.jpeg

    1 条回复 最后回复
    1
    • FredF 离线
      FredF 离线
      Fred
      德高望重
      发表于 最后由 编辑
      #2

      20%提升有点少啊,llama.cpp开MTP一般能提升2~2.5x的TG,不过那是在30,40系列上测的,可能确实20系列卡的极限到了。

      D 1 条回复 最后回复
      0
      • williamlouisW 在线
        williamlouisW 在线
        williamlouis
        超级版主
        发表于 最后由 编辑
        #3

        精品。终于看到精华了。20系列 主驱动 太老了。你能搞出效果很难得。

        个人主页:xlkj.org Telegram https://t.me/xlkjorg

        1 条回复 最后回复
        0
        • FredF Fred

          20%提升有点少啊,llama.cpp开MTP一般能提升2~2.5x的TG,不过那是在30,40系列上测的,可能确实20系列卡的极限到了。

          D 离线
          D 离线
          davidwei0826
          发表于 最后由 编辑
          #4

          @Fred 我平时不加MTP是,utility基本都95%以上了, MTP再消耗一部分算力,在20这样的算力基础上,估计也就提升到这意思了。适合入门或者应用频率不高的chat场景。

          1 条回复 最后回复
          0
          • williamlouisW 在线
            williamlouisW 在线
            williamlouis
            超级版主
            发表于 最后由 编辑
            #5

            入门耍耍呗。没有生产力。锤锤的核心是有项目再起飞。你现在就是熟悉这个折腾的流程就行。有项目了再搞硬件。

            个人主页:xlkj.org Telegram https://t.me/xlkjorg

            1 条回复 最后回复
            0
            • terryT 离线
              terryT 离线
              terry
              超级版主
              发表于 最后由 编辑
              #6

              精品,2080Ti还挺不错的,我被打脸了啊。

              油管:https://www.youtube.com/@抡锤者

              williamlouisW 1 条回复 最后回复
              0
              • terryT terry

                精品,2080Ti还挺不错的,我被打脸了啊。

                williamlouisW 在线
                williamlouisW 在线
                williamlouis
                超级版主
                发表于 最后由 编辑
                #7

                @terry 没有。显卡核心问题。这玩意上不了天的。

                个人主页:xlkj.org Telegram https://t.me/xlkjorg

                1 条回复 最后回复
                0
                • terryT terry 于 将此主题固定
                • 系统 于 取消固定此主题
                • E 离线
                  E 离线
                  ezios
                  发表于 最后由 编辑
                  #8

                  很有参考意义,我最近打算上车2080ti22试试😢

                  1 条回复 最后回复
                  0
                  • J 离线
                    J 离线
                    joker_chang
                    德高望重 劳动模范
                    发表于 最后由 编辑
                    #9

                    我在windows10上编译整合了MTP的llama.cpp的主干代码,在3090Ti24G上只能跑到8tokens/s,还不如LM Studio的效果好。准备按照大大的操作重新拉分支再编译一个版本看看。

                    不至于windows和linux的差距有这么大把~
                    dcf43191-b052-4feb-a61f-2cf96bead74f-image.jpeg

                    1 条回复 最后回复
                    0
                    • D 离线
                      D 离线
                      davidwei0826
                      发表于 最后由 编辑
                      #10

                      前几天看到MTP的PR合并主线了,拉下来编译了一下,配合unsloth的带TPM的Q4量化模型,感觉这个显卡还可以再战。
                      Qwen3.6-35B-A3B Q4_K_M, 双卡, 101.89 TPS

                      model test t/s peak t/s ttfr (ms) est_ppt (ms) e2e_ttft (ms)
                      qwen3.6-35B llama.cpp pp2048 977.46 ± 210.02 2064.32 ± 518.14 2039.35 ± 518.14 2064.32 ± 518.14
                      qwen3.6-35B llama.cpp tg32 101.89 ± 5.71 105.21 ± 5.85

                      Qwen3.6-27B Q4_K_M, 双卡, 36.4 TPS

                      model test t/s peak t/s ttfr (ms) est_ppt (ms) e2e_ttft (ms)
                      qwen3.6-27B llama.cpp pp2048 452.44 ± 41.05 4259.39 ± 584.84 4239.24 ± 584.84 4259.39 ± 584.84
                      qwen3.6-27B llama.cpp tg32 36.40 ± 1.42 37.56 ± 1.44

                      Qwen3.6-35B-A3B,有没有NVLink速度都差不多; Qwen3.6-27B,没有NVLINK的话, TPS稍微少一点,在30左右,不如单卡。
                      但是2080Ti 22G这个卡,单卡跑不了Qwen3.6-35B-A3B Q4_K_M, 我上面帖子那个跑27B模型的,也不是特别稳定,一周遇到两次OOM. 所以如果不是双卡,就不要挂mmproj了,很容易OOM.
                      还有, 最近用Qwen3.6-35B-A3B 配合Hermes,感觉没有想象的那么拉。任务简单一点,基本都能做,结果也能接受。太复杂的任务,在另一个连着GLM-5.1或者MINIMAX2.7的Hermes上跑一下,然后复制过来就行了,私密场景的,也没有特别复杂的任务。配合100多TPS的速度,整体感觉很爽。

                      PS: 这两张卡是去年买了,总成本5k,现在我看4k就能拿下了,建议如果只跑Hermes,能接受Qwen3.6-35B-A3B 智商的,可以入,还能战。

                      c0dbefa4-87be-4bbe-b941-b3f931927c45-image.jpeg
                      6dc648a5-acba-4dc9-ba4b-887b4382dfc6-image.jpeg
                      068cd73d-cc4d-4b3f-a767-aeaa31982d43-image.jpeg

                      1 条回复 最后回复
                      0
                      • sirwangS 在线
                        sirwangS 在线
                        sirwang
                        超级版主
                        发表于 最后由 编辑
                        #11

                        我还有两张2080ti-22G,回头试一下,感谢。

                        1 条回复 最后回复
                        0
                        • E 离线
                          E 离线
                          ezios
                          发表于 最后由 编辑
                          #12

                          请问27B的prompt处理速度是多少?我现在峰值600,慢慢就到500左右了,体感不好。35BA3B可以上千。按理说都在显存里,应该很快呀。

                          Q4KM的还行,UD的不行,说多了爆显存

                          version = 1
                          
                          [*]
                          parallel = 1
                          
                          n-gpu-layers = 999
                          
                          ctx-size = 65536
                          predict = 8192
                          
                          flash-attn = on
                          
                          cache-type-k = q4_0
                          cache-type-v = q4_0
                          
                          threads = 8
                          threads-batch = 16
                          
                          batch-size = 8192
                          ubatch-size = 512
                          
                          jinja = true
                          reasoning = off
                          reasoning-budget = 0
                          
                          cache-prompt = true
                          cache-reuse = 256
                          
                          kv-offload = true
                          kv-unified = true
                          context-shift = true
                          
                          no-mmap = true
                          
                          temp = 0.6
                          top-p = 0.9
                          top-k = 40
                          min-p = 0.0
                          
                          presence-penalty = 0.0
                          repeat-penalty = 1.03
                          
                          load-on-startup = false
                          stop-timeout = 10
                          
                          [default]
                          model = C:\models\Qwen3.6-27B-Q4_K_M.gguf
                          ; 128k
                          ctx-size = 131072
                          spec-type = draft-mtp
                          spec-draft-n-max = 2
                          
                          cache-type-k-draft = q4_0
                          cache-type-v-draft = q4_0
                          
                          batch-size = 8192
                          ubatch-size = 1024
                          
                          [qwen36-27b-ud-q4k-xl-hermes-fast-read]
                          model = C:\models\Qwen3.6-27B-UD-Q4_K_XL.gguf
                          ; 128k
                          ctx-size = 131072
                          spec-type = draft-mtp
                          spec-draft-n-max = 1
                          
                          cache-type-k-draft = q4_0
                          cache-type-v-draft = q4_0
                          
                          batch-size = 16384
                          ubatch-size = 1024
                          
                          Tony WangT 1 条回复 最后回复
                          0
                          • D 离线
                            D 离线
                            davidwei0826
                            发表于 最后由 编辑
                            #13

                            你是说prefill? pp2048:452.44 ± 41.05 。 35B-A3B可以到977.46 ± 210.02
                            aa9c4efc-351d-45f5-9b68-5c397e359198-image.jpeg

                            E 1 条回复 最后回复
                            0
                            • E ezios

                              请问27B的prompt处理速度是多少?我现在峰值600,慢慢就到500左右了,体感不好。35BA3B可以上千。按理说都在显存里,应该很快呀。

                              Q4KM的还行,UD的不行,说多了爆显存

                              version = 1
                              
                              [*]
                              parallel = 1
                              
                              n-gpu-layers = 999
                              
                              ctx-size = 65536
                              predict = 8192
                              
                              flash-attn = on
                              
                              cache-type-k = q4_0
                              cache-type-v = q4_0
                              
                              threads = 8
                              threads-batch = 16
                              
                              batch-size = 8192
                              ubatch-size = 512
                              
                              jinja = true
                              reasoning = off
                              reasoning-budget = 0
                              
                              cache-prompt = true
                              cache-reuse = 256
                              
                              kv-offload = true
                              kv-unified = true
                              context-shift = true
                              
                              no-mmap = true
                              
                              temp = 0.6
                              top-p = 0.9
                              top-k = 40
                              min-p = 0.0
                              
                              presence-penalty = 0.0
                              repeat-penalty = 1.03
                              
                              load-on-startup = false
                              stop-timeout = 10
                              
                              [default]
                              model = C:\models\Qwen3.6-27B-Q4_K_M.gguf
                              ; 128k
                              ctx-size = 131072
                              spec-type = draft-mtp
                              spec-draft-n-max = 2
                              
                              cache-type-k-draft = q4_0
                              cache-type-v-draft = q4_0
                              
                              batch-size = 8192
                              ubatch-size = 1024
                              
                              [qwen36-27b-ud-q4k-xl-hermes-fast-read]
                              model = C:\models\Qwen3.6-27B-UD-Q4_K_XL.gguf
                              ; 128k
                              ctx-size = 131072
                              spec-type = draft-mtp
                              spec-draft-n-max = 1
                              
                              cache-type-k-draft = q4_0
                              cache-type-v-draft = q4_0
                              
                              batch-size = 16384
                              ubatch-size = 1024
                              
                              Tony WangT 离线
                              Tony WangT 离线
                              Tony Wang
                              超级版主
                              发表于 最后由 编辑
                              #14

                              @ezios
                              prompt 处理要靠算力, 因为要把参数都算一遍. decode主要靠显存带宽. 所以 27B 和 A3B 的速度差异很大.

                              E 1 条回复 最后回复
                              0
                              • D davidwei0826

                                你是说prefill? pp2048:452.44 ± 41.05 。 35B-A3B可以到977.46 ± 210.02
                                aa9c4efc-351d-45f5-9b68-5c397e359198-image.jpeg

                                E 离线
                                E 离线
                                ezios
                                发表于 最后由 编辑
                                #15

                                @davidwei0826 我跟你这差不多,看来到极限了

                                1 条回复 最后回复
                                0
                                • Tony WangT Tony Wang

                                  @ezios
                                  prompt 处理要靠算力, 因为要把参数都算一遍. decode主要靠显存带宽. 所以 27B 和 A3B 的速度差异很大.

                                  E 离线
                                  E 离线
                                  ezios
                                  发表于 最后由 编辑
                                  #16

                                  @Tony-Wang 看来没啥好优化的了,但是没得说,27b干活是真爽

                                  1 条回复 最后回复
                                  0
                                  • terryT terry 于 将此主题固定
                                  • 元气堡AI智能元 离线
                                    元气堡AI智能元 离线
                                    元气堡AI智能
                                    发表于 最后由 编辑
                                    #17

                                    根据https://www.youtube.com/watch?v=nU9c-PffHPg&t=361s,我用2080ti22G可以跑qwen3.6-35b模型24token/s
                                    cuda下载是12.4
                                    启动参数
                                    @echo off
                                    chcp 65001 >nul
                                    cd /d C:\llm

                                    llama-server.exe ^
                                    -m "models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" ^
                                    --mmproj "models\mmproj-BF16.gguf" ^
                                    -ngl 99 ^
                                    --n-cpu-moe 999 ^
                                    --flash-attn on ^
                                    --jinja ^
                                    -c 65536 ^
                                    -t 10 ^
                                    -b 4096 ^
                                    -ub 128 ^
                                    --cache-type-k q4_0 ^
                                    --cache-type-v q4_0 ^
                                    --mlock ^
                                    --host 127.0.0.1 ^
                                    --port 8080

                                    pause

                                    1 条回复 最后回复
                                    0
                                    • 系统 于 取消固定此主题

                                    你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                    厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                    有了你的建议,这篇帖子会更精彩哦 💗

                                    注册 登录
                                    回复
                                    • 在新帖中回复
                                    登录后回复
                                    • 从旧到新
                                    • 从新到旧
                                    • 最多赞同


                                    • 登录

                                    • 没有帐号? 注册

                                    • 第一个帖子
                                      最后一个帖子
                                    0
                                    • 版块
                                    • 最新
                                    • 标签
                                    • 热门
                                    • 用户
                                    • 群组