跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 7900XTX + llama.cpp Qwen3.6 27B TurboQuant + MTP 测试结果分享

7900XTX + llama.cpp Qwen3.6 27B TurboQuant + MTP 测试结果分享

已定时 已固定 已锁定 已移动 LLM讨论区
56 帖子 22 发布者 2.4k 浏览 5 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • Leon YL Leon Y

    我搞了个7900 XT 20GB, 用ollama 在跑qwen3.6:27b-q8_0,感觉很慢

    David ZhangD 离线
    David ZhangD 离线
    David Zhang
    编写于 最后由 编辑
    #47

    @Leon-Y ollama是个玩具不是工具,换llama.cpp或者 vllm

    Leon YL 1 条回复 最后回复
    3
    • David ZhangD David Zhang

      @Leon-Y ollama是个玩具不是工具,换llama.cpp或者 vllm

      Leon YL 离线
      Leon YL 离线
      Leon Y
      编写于 最后由 编辑
      #48

      @David-Zhang 说:

      @Leon-Y ollama是个玩具不是工具,换llama.cpp或者 vllm

      果然上了llama.cpp,速度起飞,显卡风扇狂吼。

      1 条回复 最后回复
      1
      • A 离线
        A 离线
        asdqwe876
        编写于 最后由 编辑
        #49

        22673测试下来windows下概率崩溃,找不到原因

        1 条回复 最后回复
        0
        • xiaopbroX 离线
          xiaopbroX 离线
          xiaopbro
          编写于 最后由 编辑
          #50

          牛啊,大佬,学习了

          1 条回复 最后回复
          0
          • 系统 取消固定了该主题
          • terryT terry 固定了该主题
          • Chang Ching-ChunC 离线
            Chang Ching-ChunC 离线
            Chang Ching-Chun
            编写于 最后由 编辑
            #51

            感謝大神分享!好人一生平安

            1 条回复 最后回复
            0
            • 张鑫磊张 张鑫磊 被引用 于这个主题
            • Devin HiD Devin Hi

              此配置经测试(Hermes跑大任务),24G的显存 容易爆OOM

              所以改为了
              --ctx-size 65536
              --batch-size 512
              --ubatch-size 128 \

              terryT 在线
              terryT 在线
              terry
              编写于 最后由 编辑
              #52

              @Devin-Hi 改了之后呢?改进如何?我也想抄作业了。

              油管:https://www.youtube.com/@抡锤者

              1 条回复 最后回复
              0
              • 张鑫磊张 离线
                张鑫磊张 离线
                张鑫磊
                编写于 最后由 编辑
                #53

                @david-zhang Qwen3.6-27B-Q4_K_M-mtp.gguf这个是不是只有huggingface上有modelscope上找不到

                1 条回复 最后回复
                0
                • David ZhangD 离线
                  David ZhangD 离线
                  David Zhang
                  编写于 最后由 编辑
                  #54

                  5cfbd3e5-4dfc-4456-9395-5faf08254a33-image.jpeg
                  有,但是huggingface会更多

                  terryT 1 条回复 最后回复
                  0
                  • 系统 取消固定了该主题
                  • terryT terry 固定了该主题
                  • terryT terry 被引用 于这个主题
                  • Qi KaiserQ Qi Kaiser 被引用 于这个主题
                  • 系统 取消固定了该主题
                  • terryT terry 固定了该主题
                  • David ZhangD David Zhang

                    最近刚入手了 7900xtx,本地跑llm, 为opencode, pi.dev 提供本地llm api 解决客户的代码隐私焦虑。

                    花了亿点点时间跑了下性能,结果如下,供各位参考。流水账,先不贴llama-bench 结果了,太多。

                    先发 老特 这里了,回头有空了再发个reddit
                    回头等DFlash + HIP(ROCM) 成熟了再跑下看看。

                    1. Rocm + turboquant,

                    repo: https://github.com/domvox/llama.cpp-turboquant-hip
                    性能: 256k上下文, pp: 970t/s tg: 29t/s
                    Comment:目前测试,除了反应没在线api 快,生成代码的质量不比在线api 差。

                    ~/llama.cpp-turboquant-hip/rocm/llama-server -m ~/model/llm/qwen3.6-27b/Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf   --mmproj ~/model/llm/qwen3.6-27b/mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf   --alias qwen3.6-27b   --host 0.0.0.0   --port 8080   --n-gpu-layers 999   --ctx-size 262144   --batch-size 2048   --ubatch-size 768   --threads 8   --temp 1.0      --top-p 0.95     --top-k 20     --min-p 0.00   --presence_penalty 1.5   --cache-type-k turbo3   --cache-type-v turbo3
                    

                    2. Vulkan

                    repo: https://github.com/ggml-org/llama.cpp
                    性能: 256k上下文, kv-cache-type: Q4_0, pp: 730t/s tg: 47t/s, (Q8_0会慢一丢丢)

                    ~/Downloads/llama.cpp/vulkan/bin/llama-server -m ~/model/llm/qwen3.6-27b/Qwen3.6-27B-Q4_K_M-mtp.gguf   --alias qwen3.6-27b  --cache-type-k q4_0 --cache-type-v q4_0 -np 1 -c 262144 --temp 0.7 --top-k 20 -ngl 99   --port 8080 --host 0.0.0.0   -fa 1 -ub 256
                    

                    2.1 Vulkan + turboquant,

                    repo: https://github.com/TheTom/llama-cpp-turboquant
                    性能: 256k上下文, kv-cache-type: Q4_0, tg: 10t/s, decoding 时 GPU 使用率不到 30%,速度拉跨。开MTP 也 差不多。

                    ~/llama.cpp/build/bin/llama-server   -m ~/model/llm/qwen3.6-27b/Qwen3.6-27B-Q4_K_M-mtp.gguf   --alias qwen3.6-27b   --cache-type-k turbo3 --cache-type-v turbo3   -np 1 -c 262144 --temp 0.7 --top-k 20 -ngl 99   --port 8080 --host 0.0.0.0   -fa 1 -ub 256
                    

                    3. Vulkan + MTP

                    repo/pr:
                    https://github.com/ggml-org/llama.cpp/pull/22673
                    性能: 256k上下文, kv-cache-type: Q4_0, pp: 730t/s tg: 67t/s, VRAM 占用跟不开MTP 差不多,

                    ~/Downloads/llama.cpp/vulkan/bin/llama-server -m ~/model/llm/qwen3.6-27b/Qwen3.6-27B-Q4_K_M-mtp.gguf   --alias qwen3.6-27b   --spec-type mtp --spec-draft-n-max 3   --cache-type-k q4_0 --cache-type-v q4_0 -np 1 -c 262144 --temp 0.7 --top-k 20 -ngl 99   --port 8080 --host 0.0.0.0   -fa 1 -ub 256
                    

                    3. Rocm + MTP

                    repo/pr: https://github.com/ggml-org/llama.cpp/pull/22673
                    性能: 4k上下文, kv-cache-type: Q4_0, pp: 730t/s tg: 67t/s
                    Comment: Rocm的backend + MTP 有问题,VRAM 在开始 对话时 暴增 5G,具体原因不明,所以 最多8k上下文, Rocm目前的好处 是由 turbo quant 集成。

                    ~/llama.cpp/build/bin/llama-server   -m ~/model/llm/qwen3.6-27b/Qwen3.6-27B-Q4_K_M-mtp.gguf   --alias qwen3.6-27b   --spec-type mtp --spec-draft-n-max 3   --cache-type-k q4_0 --cache-type-v q4_0   -np 1 -c 4096 --temp 0.7 --top-k 20 -ngl 99   --port 8080 --host 0.0.0.0   -fa 1 -ub 256
                    

                    4.Hipfire (DFlash) v0.1.20

                    repo: https://github.com/Kaden-Schutt/hipfire
                    性能: 4k上下文, pp: 930t/s tg: 46t/s,
                    Comment: 只能chat聊天,速度很快,默认开启 DFlash, 但是 上下文8k 以上就会卡死,或者崩溃, 没法给 opencode 或者pi 使用,等三个月半年再看看。

                    5. 老卡 P40 24G,

                    repo: https://github.com/TheTom/llama-cpp-turboquant
                    pr: https://github.com/ggml-org/llama.cpp/pull/22673

                    不开MTP

                    性能: 196k 上下文,tg: 10t/s,

                    ~/llama.cpp-mtp/build/bin/llama-server -m ~/model/llm/qwen3.6-27b/Qwen3.6-27B-Q4_K_M-mtp.gguf   --alias qwen3.6-27b  --cache-type-k turbo3 --cache-type-v turbo3 -c 196608 --temp 0.7 --top-k 20 -ngl 99   --port 8080 --host 0.0.0.0   -fa 1 -ub 256
                    
                    开MTP

                    性能: 196k上下文,tg: 17t/s,

                    ~/llama-cpp-turboquant/build/bin/llama-server -m ~/model/llm/qwen3.6-27b/Qwen3.6-27B-Q4_K_M-mtp.gguf   --alias qwen3.6-27b   --spec-type mtp --spec-draft-n-max 3   --cache-type-k turbo3 --cache-type-v turbo3   -np 1 -c 196608 --temp 0.7 --top-k 20 -ngl 99   --port 8080 --host 0.0.0.0   -fa 1 -ub 256
                    


                    opencode + deepseek v4 帮我跑了一把,结果如下

                    • 如果追求性能 Vulkan + MTP 效果最好,
                    • MTP的性能不是恒定的,不同的上下文或者任务,可能存在很大的差别,你让他写小说,规划日常,写代码,性能提升可能会不一样,跑分仅供参考。
                    • MTP 目前只能单个对话session,没法并行。
                    • Vuklan 后端对 Turbo quant的支持还有存在问题, GPU利用率不够,还得优化。
                    • Rocm + MTP 存在 VRAM问题,会无端暴涨5G占用,导致跑起来最多8k多一点。

                    llama-bench 测试结果

                    环境

                    • MTP 模型: Qwen3.6-27B-Q4_K_M-mtp.gguf (15.82 GiB) https://huggingface.co/froggeric/Qwen3.6-27B-MTP-GGUF/
                    • 非MTP 模型: Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-Q4_K_P.gguf (17 GiB) https://huggingface.co/HauhauCS/Qwen3.6-27B-Uncensored-HauhauCS-Aggressive
                    • GPU: AMD Radeon RX 7900 XTX (24,560 MiB 显存)
                    • CPU: Genuine Intel(R) 13900hk ES
                    • 线程数: 8
                    • n-gpu-layers: 999 (完全卸载到 GPU)
                    • 温度: 0.7, top-k: 20

                    ROCm (HIP) - KV缓存类型对比 (非MTP)

                    二进制: ~/llama.cpp/rocm/bin/llama-bench (build 9046)

                    KV缓存类型 pp1024 (token/s) tg128 (token/s)
                    f16 (默认) 904.50 28.99
                    q4_0 898.01 28.81

                    Vulkan - KV缓存类型对比 (非MTP)

                    标准构建 (~/Downloads/llama.cpp/build-vulkan/bin/llama-bench)

                    KV缓存类型 pp512 (token/s) tg128 (token/s)
                    f16 765.94 37.06
                    Q4_0 769.82 37.17
                    Q8_0 273.25 37.13

                    Turboquant 构建 (~/Downloads/llama-cpp-turboquant/build-vulkan/bin/llama-bench)

                    KV缓存类型 pp512 (token/s) tg128 (token/s)
                    turbo2 193.43 ± 1.49 23.79 ± 0.17
                    turbo3 128.44 ± 1.31 21.88 ± 0.14
                    turbo4 178.94 ± 2.03 23.00 ± 0.25

                    注意:turboquant 测试期间 GPU 使用率仅约 30%,未能充分利用 GPU。瓶颈可能在 CPU 端的量化/反量化操作。

                    q4_0/q8_0 在 turboquant 构建的 llama-bench 中仍然失败。


                    Vulkan + MTP

                    二进制: ~/llama.cpp/vulkan/bin/llama-cli
                    命令: --spec-type mtp --spec-draft-n-max 3 --parallel 1 -p "tell me a jok" -n 128 -ngl 999

                    注意:MTP 使用 -np 1(单并行序列),因此无法并行处理。草稿模型顺序执行,限制了吞吐量。

                    配置 生成速度 (token/s)
                    非MTP (f16) 39.5
                    MTP (q4_0) 81.2
                    MTP (q8_0) 77.5

                    ROCm + MTP

                    二进制: ~/llama.cpp/rocm/bin/llama-cli 配合 LD_LIBRARY_PATH

                    配置 生成速度 (token/s)
                    非MTP (f16) 29.4
                    MTP (q4_0) 53.6
                    MTP (turbo3) 47.4
                    MTP (turbo4) 57.2

                    总结

                    非MTP (llama-bench)

                    KV缓存类型 pp (token/s) tg128 (token/s) 后端
                    f16 904.50 28.99 ROCm (pp1024)
                    q4_0 898.01 28.81 ROCm (pp1024)
                    f16 765.94 37.06 Vulkan 标准 (pp512)
                    Q4_0 769.82 37.17 Vulkan 标准 (pp512)
                    Q8_0 273.25 37.13 Vulkan 标准 (pp512)
                    turbo2 193.43 23.79 Vulkan turboquant (pp512)
                    turbo4 178.94 23.00 Vulkan turboquant (pp512)
                    turbo3 128.44 21.88 Vulkan turboquant (pp512)

                    MTP (llama-cli)

                    配置 生成速度 (token/s) 后端
                    MTP (q4_0) 81.2 Vulkan
                    MTP (q8_0) 77.5 Vulkan
                    MTP (turbo4) 57.2 ROCm
                    MTP (q4_0) 53.6 ROCm
                    MTP (turbo3) 47.4 ROCm
                    非MTP (f16) 39.5 Vulkan
                    非MTP (f16) 29.4 ROCm

                    关键观察

                    1. ROCm 上的 q4_0 性能与 f16 几乎相同 (898 vs 905 token/s) — 差异可忽略。
                    2. Turboquant 类型 仅适用于 turboquant Vulkan 构建。turbo2 的提示处理最快 (193 token/s @ pp512)。各 turbo 变体的生成速度相近 (~22-24 token/s)。
                    3. 标准 Vulkan 构建 支持 Q4_0/Q8_0 — Q4_0 与 f16 速度相当 (~770 token/s pp512),Q8_0 提示处理慢约 2.8 倍 (273 token/s) 但生成速度相同 (~37 token/s)。Turbo 类型仅适用于 turboquant 构建。
                    4. MTP 显著提升生成速度:Vulkan+q4_0 达到 81.2 token/s(比非MTP 提升 +106%),Vulkan+q8_0 达到 77.5 token/s (+96%),ROCm+turbo4 达到 57.2 token/s (+95%)。

                    reddit

                    lei ruanL 离线
                    lei ruanL 离线
                    lei ruan
                    编写于 最后由 编辑
                    #55

                    @David-Zhang
                    我的速度是不是cpu不行呀?
                    [ Prompt: 67.8 t/s | Generation: 48.3 t/s ]
                    硬件:3700x + 32g+ 7900xtx

                    1 条回复 最后回复
                    0
                    • David ZhangD David Zhang

                      5cfbd3e5-4dfc-4456-9395-5faf08254a33-image.jpeg
                      有,但是huggingface会更多

                      terryT 在线
                      terryT 在线
                      terry
                      编写于 最后由 编辑
                      #56

                      @David-Zhang 有空讲下OpenCode体验如何,编程跑Agent,我最近想要折腾下,要是能抄作业最好。

                      油管:https://www.youtube.com/@抡锤者

                      1 条回复 最后回复
                      0
                      • 系统 取消固定了该主题

                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                      有了你的建议,这篇帖子会更精彩哦 💗

                      注册 登录
                      回复
                      • 在新帖中回复
                      登录后回复
                      • 从旧到新
                      • 从新到旧
                      • 最多赞同


                      • 登录

                      • 没有帐号? 注册

                      • 登录或注册以进行搜索。
                      • 第一个帖子
                        最后一个帖子
                      0
                      • 版块
                      • 最新
                      • 标签
                      • 热门
                      • 用户
                      • 群组