跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 全站首发:RTX 3090 24G 无痛爽玩 华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论)

全站首发:RTX 3090 24G 无痛爽玩 华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论)

已定时 已固定 已锁定 已移动 LLM讨论区
17 帖子 6 发布者 360 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • S 离线
    S 离线
    stxpnet
    技术大牛 劳动模范
    编写于 最后由 stxpnet 编辑
    #2

    上面所用的参数.

       killall llama3-server 2>/dev/null; sleep 3
         killall llama-server 2>/dev/null; sleep 3
       export LD_LIBRARY_PATH=/data/model3/beellma616-kv.cpp/build/bin:$LD_LIBRARY_PATH
           /data/model3/beellma616-kv.cpp/build/bin/llama-server \
          --host 0.0.0.0 --port 8025 \
          -m /data/model2/Qwen3.6-27B-MTP-MoQ-4.85.gguf \
          --spec-type draft-mtp \
          --spec-draft-n-max 3 \
          -ngl all \
          --ctx-size 163840 \
          -b 2048 -ub 512 \
          -np 1 \
          --kv-unified \
          --cache-type-k kvarn4 \
          --cache-type-v kvarn4 \
          --flash-attn on \
          --cache-ram 0 \
          --no-host \
          --jinja \
          --reasoning off \
          --temp 0.6 --top-k 20 --top-p 0.96 --min-p 0.01
    

    完美契合 Qwen3.6 的混合架构
    Qwen3.6 系列本身采用了混合注意力机制。llama.cpp 近期通过 --swa-full 等参数,完美适配了这种架构
    。社区测试表明,在重新评估 Qwen3.6-27B 时,开启 SWA 相关参数能完美解决长上下文下的显存泄漏和失效问题
    补充一下,看增加这个参数有没有好效果,这个参数在beellama上无效,可能是千问自己幻想的.抱歉了.

    1 条回复 最后回复
    1
    • kop wangK 离线
      kop wangK 离线
      kop wang
      超级版主
      编写于 最后由 编辑
      #3

      “--swa-full 等参数,完美适配了这种架构
      。社区测试表明,在重新评估 Qwen3.6-27B 时,开启 SWA 相关参数能完美解决长上下文下的显存泄漏和失效问题”

      很好的信息,如果有对应的信源引用地址就更好了。

      虚心交流,一起进步

      1 条回复 最后回复
      0
      • S 离线
        S 离线
        stxpnet
        技术大牛 劳动模范
        编写于 最后由 编辑
        #4

        现在开始用noonghunna的配置和镜像 测试 Qwopus CODER 3.6 27B MTP Q 5 KM.
        1d9604c1-9622-44e6-a2a7-75d58519b024-image.jpeg 权重就达到了19.5G,比我平时用的都多了6GB啊? 增加的这部分体积能起到相应的效果吗?
        一开始直接上160K,问第二段时直接爆显存(根本原因可能是我那440M显存开机被占用了,下次重装系统一定安装server版 headless系统)
        两段式生成文学试卷题,共花费59秒. 感觉比小模型要谨慎一些.
        同样丢 给在线的千问打分(已经开了分支对话,避免其它污染干扰)
        给出的分数是20分,这不稀奇,因为它是CODER模型,文学被削弱了是好事,说明编码能力可能被增强.

        6f835751-fd46-4fc2-9a08-ac0bcb5454e0-image.jpeg
        显存维持在22G左右(剩余1.9G)

        写俄罗斯方块用了3分钟,我玩了3分钟,基本无错.Q5权重 及coder优化 起到了相当的效果.

        81f4432a-b137-47f9-8d3f-5dc998f1bec7-image.jpeg
        写完之后显存占用没变,显存管理挺优秀.
        d7f8b4a5-309e-4d01-8dee-d90f705d0392-image.jpeg

        下面开始写中国象棋,我修改了一下提示词,防止需求内部矛盾导致后续 写了代码又大段大段删除.如果这个测试能完美,证明它的CODER能力确实有增强. 否则我还不如用unsloth的UD mtp模型呢.
        a3bca7df-c6c2-4da4-af4f-901e82847dd6-image.jpeg

        这个模型挺均衡的,给我显卡干到64度了,心疼显卡3秒钟.

        ae20e85c-1be1-4d73-8f77-e504523878ff-image.jpeg

        A J 2 条回复 最后回复
        0
        • S 离线
          S 离线
          stxpnet
          技术大牛 劳动模范
          编写于 最后由 编辑
          #5

          346e6cef-75b4-4ca7-ac31-cb0463621317-image.jpeg
          让它做的三国人物关系图,耗时13分钟,略带惊艳, 是最近我测试过的里面最好的了. 这个测试必须给98分啊.

          1 条回复 最后回复
          0
          • ,terryT terry 固定了此主题
          • S 离线
            S 离线
            stxpnet
            技术大牛 劳动模范
            编写于 最后由 编辑
            #6

            79f75114-0d89-469f-ac23-3aed55d7b352-image.jpeg
            今天有个非常大的收获,可以说是最近10天来史诗级的 进步.我的Hermes终于可以和我日常聊天了. 不要太爽. P100破显卡做副模型.哈哈.

            1 条回复 最后回复
            1
            • S stxpnet

              现在开始用noonghunna的配置和镜像 测试 Qwopus CODER 3.6 27B MTP Q 5 KM.
              1d9604c1-9622-44e6-a2a7-75d58519b024-image.jpeg 权重就达到了19.5G,比我平时用的都多了6GB啊? 增加的这部分体积能起到相应的效果吗?
              一开始直接上160K,问第二段时直接爆显存(根本原因可能是我那440M显存开机被占用了,下次重装系统一定安装server版 headless系统)
              两段式生成文学试卷题,共花费59秒. 感觉比小模型要谨慎一些.
              同样丢 给在线的千问打分(已经开了分支对话,避免其它污染干扰)
              给出的分数是20分,这不稀奇,因为它是CODER模型,文学被削弱了是好事,说明编码能力可能被增强.

              6f835751-fd46-4fc2-9a08-ac0bcb5454e0-image.jpeg
              显存维持在22G左右(剩余1.9G)

              写俄罗斯方块用了3分钟,我玩了3分钟,基本无错.Q5权重 及coder优化 起到了相当的效果.

              81f4432a-b137-47f9-8d3f-5dc998f1bec7-image.jpeg
              写完之后显存占用没变,显存管理挺优秀.
              d7f8b4a5-309e-4d01-8dee-d90f705d0392-image.jpeg

              下面开始写中国象棋,我修改了一下提示词,防止需求内部矛盾导致后续 写了代码又大段大段删除.如果这个测试能完美,证明它的CODER能力确实有增强. 否则我还不如用unsloth的UD mtp模型呢.
              a3bca7df-c6c2-4da4-af4f-901e82847dd6-image.jpeg

              这个模型挺均衡的,给我显卡干到64度了,心疼显卡3秒钟.

              ae20e85c-1be1-4d73-8f77-e504523878ff-image.jpeg

              A 离线
              A 离线
              applejuice
              劳动模范 德高望重
              编写于 最后由 编辑
              #7

              @stxpnet 我的显卡长期70+啊

              S 1 条回复 最后回复
              0
              • A applejuice

                @stxpnet 我的显卡长期70+啊

                S 离线
                S 离线
                stxpnet
                技术大牛 劳动模范
                编写于 最后由 编辑
                #8

                @applejuice 温度?

                A 1 条回复 最后回复
                0
                • S stxpnet

                  @applejuice 温度?

                  A 离线
                  A 离线
                  applejuice
                  劳动模范 德高望重
                  编写于 最后由 编辑
                  #9

                  @stxpnet 对啊 只要一跑起来就70度

                  1 条回复 最后回复
                  0
                  • 5 离线
                    5 离线
                    566656661
                    超凡大师
                    编写于 最后由 编辑
                    #10

                    突然發現up寫的是MoQ

                    我還打算在這個周末測測看

                    1 条回复 最后回复
                    0
                    • S 离线
                      S 离线
                      stxpnet
                      技术大牛 劳动模范
                      编写于 最后由 编辑
                      #11

                      目前我已经切换到IQ4_XS了,我觉得这个才是最适合coding的量化格式。

                      5 1 条回复 最后回复
                      0
                      • S stxpnet

                        目前我已经切换到IQ4_XS了,我觉得这个才是最适合coding的量化格式。

                        5 离线
                        5 离线
                        566656661
                        超凡大师
                        编写于 最后由 编辑
                        #12

                        @stxpnet

                        我是打算測試的同時講一講MoQ的技術, 評分可能就引用這篇文了

                        IQ4_XS BPW就是Q4KM附近, 模型權重大約在15gb吧?

                        留8~9gb給kv cache給長上下文很不錯的

                        1 条回复 最后回复
                        0
                        • S 离线
                          S 离线
                          stxpnet
                          技术大牛 劳动模范
                          编写于 最后由 stxpnet 编辑
                          #13

                          可以多在reddit上搜索看一下,我昨晚看了,也有人在研究这个格式的kv cache了,对咱们这批老用户是个好消息.
                          我目前的体感是64K或者128K比较适合咱们这个卡. 开0.7的温度,和hermes聊天. 0.6的温度编程. 下面是各种kv cache 的分歧度. 及显存占用 ,二者都是越小越好. 但我还想到一层:
                          就是如果你的模型权重本身 是Q4的话,产生Q5或Q6级别的cache,可能会拖慢速度,因为它在原始权重中找不到对应的参数.要在KV CACHE里面找,可能拖慢速度. 所以有空可以试试Q5级别的权重.

                          51fe9640-998b-4bb5-8ab2-8a868a1f83ea-image.jpeg

                          5 1 条回复 最后回复
                          1
                          • S stxpnet

                            可以多在reddit上搜索看一下,我昨晚看了,也有人在研究这个格式的kv cache了,对咱们这批老用户是个好消息.
                            我目前的体感是64K或者128K比较适合咱们这个卡. 开0.7的温度,和hermes聊天. 0.6的温度编程. 下面是各种kv cache 的分歧度. 及显存占用 ,二者都是越小越好. 但我还想到一层:
                            就是如果你的模型权重本身 是Q4的话,产生Q5或Q6级别的cache,可能会拖慢速度,因为它在原始权重中找不到对应的参数.要在KV CACHE里面找,可能拖慢速度. 所以有空可以试试Q5级别的权重.

                            51fe9640-998b-4bb5-8ab2-8a868a1f83ea-image.jpeg

                            5 离线
                            5 离线
                            566656661
                            超凡大师
                            编写于 最后由 566656661 编辑
                            #14

                            @stxpnet

                            我自己的認知是要不模型權重量化跟KV Cache同Bit等級(Q8對上FP8, 8 : 8 ~= 1 : 1), 要不就是容易Scale Up (Q4 對上FP8, 4.x : 8 ~= 1 : 2)

                            如果沒對上的話應該要額外再增加一個轉換程序, Prefill會慢,外加有額外精度損失 (不記本身Scale up/down的話), 比較直觀的話就是KLD了

                            1 条回复 最后回复
                            0
                            • ,系统 取消固定了此主题
                            • C 离线
                              C 离线
                              c0aster
                              编写于 最后由 编辑
                              #15

                              坐等大佬更新,等一波抄作业

                              1 条回复 最后回复
                              0
                              • ,5 566656661 引用了 此主题
                              • S stxpnet

                                现在开始用noonghunna的配置和镜像 测试 Qwopus CODER 3.6 27B MTP Q 5 KM.
                                1d9604c1-9622-44e6-a2a7-75d58519b024-image.jpeg 权重就达到了19.5G,比我平时用的都多了6GB啊? 增加的这部分体积能起到相应的效果吗?
                                一开始直接上160K,问第二段时直接爆显存(根本原因可能是我那440M显存开机被占用了,下次重装系统一定安装server版 headless系统)
                                两段式生成文学试卷题,共花费59秒. 感觉比小模型要谨慎一些.
                                同样丢 给在线的千问打分(已经开了分支对话,避免其它污染干扰)
                                给出的分数是20分,这不稀奇,因为它是CODER模型,文学被削弱了是好事,说明编码能力可能被增强.

                                6f835751-fd46-4fc2-9a08-ac0bcb5454e0-image.jpeg
                                显存维持在22G左右(剩余1.9G)

                                写俄罗斯方块用了3分钟,我玩了3分钟,基本无错.Q5权重 及coder优化 起到了相当的效果.

                                81f4432a-b137-47f9-8d3f-5dc998f1bec7-image.jpeg
                                写完之后显存占用没变,显存管理挺优秀.
                                d7f8b4a5-309e-4d01-8dee-d90f705d0392-image.jpeg

                                下面开始写中国象棋,我修改了一下提示词,防止需求内部矛盾导致后续 写了代码又大段大段删除.如果这个测试能完美,证明它的CODER能力确实有增强. 否则我还不如用unsloth的UD mtp模型呢.
                                a3bca7df-c6c2-4da4-af4f-901e82847dd6-image.jpeg

                                这个模型挺均衡的,给我显卡干到64度了,心疼显卡3秒钟.

                                ae20e85c-1be1-4d73-8f77-e504523878ff-image.jpeg

                                J 离线
                                J 离线
                                johnnybegood
                                德高望重 劳动模范
                                编写于 最后由 编辑
                                #16

                                @stxpnet 平时我只要跑起来就 90度啊。。。

                                S 1 条回复 最后回复
                                0
                                • J johnnybegood

                                  @stxpnet 平时我只要跑起来就 90度啊。。。

                                  S 离线
                                  S 离线
                                  stxpnet
                                  技术大牛 劳动模范
                                  编写于 最后由 编辑
                                  #17

                                  @johnnybegood 90度,nvtop显示GPU和显存频率分别多少呢? 我的显卡要是到80度我就直接停了,我平时高负载从来没有超过70度过。

                                  1 条回复 最后回复
                                  1

                                  你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                  厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                  有了你的建议,这篇帖子会更精彩哦 💗

                                  注册 登录
                                  回复
                                  • 在新帖中回复
                                  登录后回复
                                  • 从旧到新
                                  • 从新到旧
                                  • 最多赞同


                                  • 登录

                                  • 没有帐号? 注册

                                  • 第一个帖子
                                    最后一个帖子
                                  0
                                  • 版块
                                  • 最新
                                  • 标签
                                  • 热门
                                  • 用户
                                  • 群组