跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 2080Ti 22G魔改版+llama.cpp pr-22673开启MTP Chat场景TPS提升20%左右

2080Ti 22G魔改版+llama.cpp pr-22673开启MTP Chat场景TPS提升20%左右

已定时 已固定 已锁定 已移动 LLM讨论区
8 帖子 5 发布者 202 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • D 离线
    D 离线
    davidwei0826
    编写于 最后由 编辑
    #1

    今天看到一篇微信公众号文章: https://mp.weixin.qq.com/s/KQo-UBEOvtRMW5dK1bz6PQ
    按照文章内容搭建了测试环境:

    git clone https://github.com/ggml-org/llama.cpp llama.cpp-mtp
    cd llama.cpp-mtp
    git fetch origin pull/22673/head:pr-22673
    git checkout pr-22673
    mkdir build && cd build
    cmake .. \
      -DCMAKE_BUILD_TYPE=Release \
      -DGGML_CUDA=ON \
      -DLLAMA_CURL=ON \
      -DGGML_NATIVE=ON \
      -DGGML_CUDA_GRAPHS=ON \
      -DGGML_CUDA_F16=ON \
      -DGGML_CUDA_FA_ALL_QUANTS=ON \
      -DCMAKE_CUDA_ARCHITECTURES=75   # 按需调整,89=Ada/4090,86=Ampere/3090
    cmake --build . --config Release \
      --target llama-server llama-bench --parallel
    

    下载了unsloth的开启MTP模型: https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF/resolve/main/Qwen3.6-27B-Q4_K_M.gguf -O ~/models/Qwen3.6-27B-MTP-Q4_K_M.gguf
    不加载vision的情况下, 启动:

    ~/llama.cpp-mtp/build/bin/llama-server -m ~/models/Qwen3.6-27B-MTP-Q4_K_M.gguf \
    --ctx-size 131072 \
    --n-gpu-layers 999 \
    -fa on \
    --port 8000 \
    --host 0.0.0.0 \
    --cache-type-k q4_0 \
    --cache-type-v q4_0 \
    --no-mmap \
    --no-warmup \
    --reasoning off \
    --jinja \
    --parallel 1 \
    --spec-type mtp \
    --spec-draft-n-max 2 \
    --chat-template-kwargs "{\"enable_thinking\": false, \"preserve_thinking\": false}"
    

    128k上下文,显存占用20.5G,简单用cherrybox提了几个问题,prompt大概2k上下。 TPS从之前的27提升到了33左右。整体感觉快了20%。 coding场景没有测试,理论上应该提升更多。
    另外,对于--spec-draft-n-max 的值,测了1,2,3。发现2时收益最大,能跑到33~34; 1和3都在30上下。 总体都比裸跑有提升。
    最后挂上了vision,发了一张1M左右的图片测试了一下,TPS在28左右,显存占用21.75G。 我准备测几天,看看会不会OOM。
    另外还有一个发现,开了MTP以后,显卡的utility下来了。之前基本上都在95%以上,功率一直顶着上限250W。开了MTP,tps上升的同时,utility基本上都在80%左右,功率也基本上不会满载了。估计是降低了开销,输出也降低,但是被MTP补偿了。

    总体来讲,2080Ti这个卡应该没什么压榨空间了,跑Hermes太慢,适合跑好skill,布置好cron让他后台自己干活,不适合前台交互。
    d7d8fd62-8a01-48ef-8bce-7a9b108e255b-image.jpeg

    1 条回复 最后回复
    1
    • FredF 离线
      FredF 离线
      Fred
      编写于 最后由 编辑
      #2

      20%提升有点少啊,llama.cpp开MTP一般能提升2~2.5x的TG,不过那是在30,40系列上测的,可能确实20系列卡的极限到了。

      D 1 条回复 最后回复
      0
      • williamlouisW 离线
        williamlouisW 离线
        williamlouis
        编写于 最后由 编辑
        #3

        精品。终于看到精华了。20系列 主驱动 太老了。你能搞出效果很难得。

        个人主页:xlkj.org Telegram https://t.me/xinlinlu

        1 条回复 最后回复
        0
        • FredF Fred

          20%提升有点少啊,llama.cpp开MTP一般能提升2~2.5x的TG,不过那是在30,40系列上测的,可能确实20系列卡的极限到了。

          D 离线
          D 离线
          davidwei0826
          编写于 最后由 编辑
          #4

          @Fred 我平时不加MTP是,utility基本都95%以上了, MTP再消耗一部分算力,在20这样的算力基础上,估计也就提升到这意思了。适合入门或者应用频率不高的chat场景。

          1 条回复 最后回复
          0
          • williamlouisW 离线
            williamlouisW 离线
            williamlouis
            编写于 最后由 编辑
            #5

            入门耍耍呗。没有生产力。锤锤的核心是有项目再起飞。你现在就是熟悉这个折腾的流程就行。有项目了再搞硬件。

            个人主页:xlkj.org Telegram https://t.me/xinlinlu

            1 条回复 最后回复
            0
            • terryT 离线
              terryT 离线
              terry
              编写于 最后由 编辑
              #6

              精品,2080Ti还挺不错的,我被打脸了啊。

              williamlouisW 1 条回复 最后回复
              0
              • terryT terry

                精品,2080Ti还挺不错的,我被打脸了啊。

                williamlouisW 离线
                williamlouisW 离线
                williamlouis
                编写于 最后由 编辑
                #7

                @terry 没有。显卡核心问题。这玩意上不了天的。

                个人主页:xlkj.org Telegram https://t.me/xinlinlu

                1 条回复 最后回复
                0
                • terryT terry 固定了该主题
                • 系统 取消固定了该主题
                • E 离线
                  E 离线
                  ezios
                  编写于 最后由 编辑
                  #8

                  很有参考意义,我最近打算上车2080ti22试试😢

                  最近开始玩LLM和COMFYUI
                  手头只有RTX4060

                  考虑购入RTX2080TI22G娱乐一下

                  1 条回复 最后回复
                  0

                  你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                  厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                  有了你的建议,这篇帖子会更精彩哦 💗

                  注册 登录
                  回复
                  • 在新帖中回复
                  登录后回复
                  • 从旧到新
                  • 从新到旧
                  • 最多赞同


                  • 登录

                  • 没有帐号? 注册

                  • 登录或注册以进行搜索。
                  • 第一个帖子
                    最后一个帖子
                  0
                  • 版块
                  • 最新
                  • 标签
                  • 热门
                  • 用户
                  • 群组