跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. ik_llama.cpp效能問題

ik_llama.cpp效能問題

已定时 已固定 已锁定 已移动 LLM讨论区
11 帖子 6 发布者 242 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • H 离线
    H 离线
    Hcl
    编写于 最后由 编辑
    #1

    https://www.reddit.com/r/LocalLLaMA/comments/1tjh7az/110_toks_with_12gb_vram_on_qwen36_35b_a3b_and_ik/

    我照這片貼文的設置
    結果速度(~30tps)反而比llama.cpp(~50tps)還慢
    請問有人知道為什麼嗎
    OS:win11
    GPU:4070 12g
    RAM:DDR4 16g*2

    5 1 条回复 最后回复
    0
    • H Hcl

      https://www.reddit.com/r/LocalLLaMA/comments/1tjh7az/110_toks_with_12gb_vram_on_qwen36_35b_a3b_and_ik/

      我照這片貼文的設置
      結果速度(~30tps)反而比llama.cpp(~50tps)還慢
      請問有人知道為什麼嗎
      OS:win11
      GPU:4070 12g
      RAM:DDR4 16g*2

      5 离线
      5 离线
      566656661
      超凡大师
      编写于 最后由 编辑
      #2

      @Hcl

      模型太大, 12GB放不下必須要倒進內存, Reddit那個是用DDR5 6000, 比DDR4快上不少

      H 1 条回复 最后回复
      0
      • 5 566656661

        @Hcl

        模型太大, 12GB放不下必須要倒進內存, Reddit那個是用DDR5 6000, 比DDR4快上不少

        H 离线
        H 离线
        Hcl
        编写于 最后由 编辑
        #3

        @566656661 我覺得比較奇怪的是我的ik_llama.cpp跑再windows反而比llama.cpp慢

        1 条回复 最后回复
        0
        • CS6C 离线
          CS6C 离线
          CS6
          技术大牛 劳动模范
          编写于 最后由 编辑
          #4

          @hcl 老哥,你先放棄 win11 吧,這點內存跟 Vram 都不夠系統折騰....

          terryT H 2 条回复 最后回复
          0
          • CS6C CS6

            @hcl 老哥,你先放棄 win11 吧,這點內存跟 Vram 都不夠系統折騰....

            terryT 在线
            terryT 在线
            terry
            超级版主
            编写于 最后由 编辑
            #5

            @CS6 内存也不够,😂

            油管:https://www.youtube.com/@抡锤者

            1 条回复 最后回复
            0
            • XiaoteX 在线
              XiaoteX 在线
              Xiaote
              劳动模范
              编写于 最后由 编辑
              #6

              @Hcl ik_llama.cpp 比 llama.cpp 慢,在12G显存+Windows环境下是预期内的,原因如下:

              ik_llama.cpp 的核心优化方向是"极致压缩显存",它用的 IQ4_XS 等非常规量化格式在压缩率上确实比 Q4_K_M 更高,但代价是反量化(dequantization)时需要额外的 CPU/GPU 计算开销。在你 12G 显存跑 35B 模型的情况下:

              1. 模型无法完全放进显存(35B Q4 约 20G,Q4_XS 约 17G),你的 12G 必然触发大量 CPU Offload —— 而 ik 的 CPU Offload 通路在 Windows 上没有做过专门优化。

              2. Windows CUDA 本身的 overhead 比 Linux 高。llama.cpp 主线的 Windows CUDA 后端经过大量用户打磨,ik_llama.cpp 作为个人分支在 CUDA kernel 优化上没有走那么远。

              3. Reddit 那个 110 t/s 的成绩是用 DDR5 6000 + Linux 跑的,内存带宽对 offload 场景影响极大。你的 DDR4 双通道带宽(~40-50GB/s)只有 DDR5 6000(~90GB/s)的一半左右。

              建议:12G 显存 + DDR4 的场景,最适合的模型是 7B-14B Q4 全程跑在显存里,或者 20B+ 模型用 Q3_K_M + -ngl 20(只放前20层到GPU)。ik_llama.cpp 的优势在显存极度吃紧的 edge case(比如 6G 跑 14B),12G 的场景它反而没优势。

              1 条回复 最后回复
              0
              • CS6C CS6

                @hcl 老哥,你先放棄 win11 吧,這點內存跟 Vram 都不夠系統折騰....

                H 离线
                H 离线
                Hcl
                编写于 最后由 编辑
                #7

                @CS6 有考慮照那篇reddit換去CachyOS看看

                CS6C 1 条回复 最后回复
                0
                • H Hcl

                  @CS6 有考慮照那篇reddit換去CachyOS看看

                  CS6C 离线
                  CS6C 离线
                  CS6
                  技术大牛 劳动模范
                  编写于 最后由 编辑
                  #8

                  @Hcl 说:

                  CachyOS

                  你需要的是一個沒有UI的環境,任何的G U I (WM )都會佔用顯示卡效能

                  H 1 条回复 最后回复
                  0
                  • CS6C CS6

                    @Hcl 说:

                    CachyOS

                    你需要的是一個沒有UI的環境,任何的G U I (WM )都會佔用顯示卡效能

                    H 离线
                    H 离线
                    Hcl
                    编写于 最后由 编辑
                    #9

                    @CS6 好的感謝我會再試試看

                    1 条回复 最后回复
                    0
                    • H 离线
                      H 离线
                      Hcl
                      编写于 最后由 编辑
                      #10

                      試出來了效果超好
                      prompt eval time = 2634.48 ms / 2988 tokens ( 0.88 ms per token, 1134.19 tokens per second)
                      eval time = 132563.02 ms / 9496 tokens ( 13.96 ms per token, 71.63 tokens per second)
                      total time = 135197.50 ms / 12484 tokens

                      指令
                      .\build\bin\Release\llama-server.exe -m "C:\Users\User.lmstudio\models\byteshape\Qwen3.6-35B-A3B-MTP-GGUF\Qwen3.6-35B-A3B-IQ4_XS-3.53bpw.gguf" -fitt 1736 -c 100000 -n 32768 --no-mmap --mlock -fa on -np 1 -ctk q4_0 -ctv q4_0 -ctkd q4_0 -ctvd q4_0 -ctxcp 64 --no-warmup --spec-type mtp --spec-draft-n-max 2 --port 8080 --host 0.0.0.0

                      1 条回复 最后回复
                      0
                      • S 离线
                        S 离线
                        stxpnet
                        技术大牛 劳动模范
                        编写于 最后由 编辑
                        #11

                        可试试BEELLAMA 3.2预览版,用华为 kavrn kv cache格式, 不过草稿格式好像还不支持。

                        1 条回复 最后回复
                        0

                        你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                        厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                        有了你的建议,这篇帖子会更精彩哦 💗

                        注册 登录
                        回复
                        • 在新帖中回复
                        登录后回复
                        • 从旧到新
                        • 从新到旧
                        • 最多赞同


                        • 登录

                        • 没有帐号? 注册

                        • 第一个帖子
                          最后一个帖子
                        0
                        • 版块
                        • 最新
                        • 标签
                        • 热门
                        • 用户
                        • 群组