跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 全站首发:RTX 3090 24G 无痛爽玩 华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论)

全站首发:RTX 3090 24G 无痛爽玩 华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论)

已定时 已固定 已锁定 已移动 LLM讨论区
17 帖子 6 发布者 358 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • S 离线
    S 离线
    stxpnet
    技术大牛 劳动模范
    编写于 最后由 stxpnet 编辑
    #1

    起因是在https://github.com/noonghunna/club-3090/ 看到有更新了.
    当然,我最感兴趣的还是QWEN 27B .
    赶紧把提示词丢给Hermes让它干活.
    先找了个 其它作者自称很均衡的27B MQO模型开刀( Qwen3.6-27B-MTP-MoQ-4.85.gguf 模型卡上说这是最均衡的,那就它吧.)
    b65dad42-d22c-488b-b560-eb586e5900f0-image.jpeg
    初始显卡占用大概为20.5GB
    由于这次参数关闭了思维链,只好使用两步提示词:

    现在你是北京一所重点中学的高中语文特级教师,我有个语文试卷出题任务要交给你,你准备好了吗?
    
    
    好,非常不错,就按你说的那些,请随机选取四大名著中的任意一部,再随机选一个章节,看你能回忆起来多少细节。用这些细节和原文制作一道高二语文的阅读理解题 (总分40分,要有判断题,填空题 ,有选择题 ,有问答题 ),要包含对考生文言文和阅读理解的考察,最后附上标准答案及评分指引。
    

    总耗时为63秒,产生了3300个左右的TOKEN. 速度大概52T/S

    8.43.973.423 I slot print_timing: id 0 | task 805 | prompt eval time = 671.66 ms / 572 tokens ( 1.17 ms per token, 851.62 tokens per second)
    8.43.973.425 I slot print_timing: id 0 | task 805 | eval time = 53959.12 ms / 2841 tokens ( 18.99 ms per token, 52.65 tokens per second)
    8.43.973.425 I slot print_timing: id 0 | task 805 | total time = 54630.78 ms / 3413 tokens
    8.43.973.426 I slot print_timing: id 0 | task 805 | graphs reused = 1927
    8.43.973.427 I slot print_timing: id 0 | task 805 | draft acceptance = 0.49115 ( 1693 accepted / 3447 generated)

    然后我在千问在线版那里,将以前问过的那个问题创建一个分支,确保上下文纯净(公平,公正,公开,哈哈).
    经过它2-3分钟的努力,给出的分数是:50分
    ab25bd77-e2ff-41de-b913-307ed5f58e3e-image.jpeg
    还行,给它一次机会吧,(注意,我曾经试过让千问在线版去生成试题,也只能拿62分,咱也不是学文科的,搞不懂这些.)
    先试跑一下俄罗斯方块试试 :
    俄罗斯方块生成中,显存占用是20.4G(稳如老狗?) 结果Trae报502,应该是循环了,一看后台还在疯狂跑TOKEN.
    看来我用了noonghunna的参数,却没有用和他相同的模型和镜像,导致翻车. 没事.加上min-p 0.01再试试.
    用了3分钟,它生成了,但是有错误.玩起来比我之前那些27B生成 的俄罗斯方块要轻盈,但是不对称的L和Z形,旋转的时候明显错误,让它尝试修一下.
    031ae620-4d34-4b1f-a7e7-4dd8e882a449-image.jpeg
    这个模型用一句话自己去脑补生成的俄罗斯方块,基本能玩,也不错,但是似乎这个题目测不出它的实力.
    并且没有思考模式,开了等于没开.似乎被强制关闭了.

    无思考模式,单提示词,生成人机/双机 对战的中国象棋,用了13分钟(中间先删除600行,又补充了600行,怀疑我的提示词有问题), 但它这个 160K长上下文应该是 满血的. 中国象棋 没生成1000行左右,可能是因为我的提示词内部有矛盾
    1aaf4e07-5f6f-40d9-ad3d-03ac9f21bf78-image.jpeg

    跑完这些去看后台,显存还是占用20.4G.
    30.45.890.477 I slot print_timing: id 0 | task 14972 | prompt eval time = 1844.57 ms / 652 tokens ( 2.83 ms per token, 353.47 tokens per second)
    30.45.890.479 I slot print_timing: id 0 | task 14972 | eval time = 9730.48 ms / 422 tokens ( 23.06 ms per token, 43.37 tokens per second)
    30.45.890.480 I slot print_timing: id 0 | task 14972 | total time = 11575.05 ms / 1074 tokens

    后期的填充速度略低,只有353T/S
    整体来说这个模型我给86分, 华为的新格式必须给95分.

    等下有空再测一下noonghunna的镜像吧.

    1 条回复 最后回复
    2
    • S 离线
      S 离线
      stxpnet
      技术大牛 劳动模范
      编写于 最后由 stxpnet 编辑
      #2

      上面所用的参数.

         killall llama3-server 2>/dev/null; sleep 3
           killall llama-server 2>/dev/null; sleep 3
         export LD_LIBRARY_PATH=/data/model3/beellma616-kv.cpp/build/bin:$LD_LIBRARY_PATH
             /data/model3/beellma616-kv.cpp/build/bin/llama-server \
            --host 0.0.0.0 --port 8025 \
            -m /data/model2/Qwen3.6-27B-MTP-MoQ-4.85.gguf \
            --spec-type draft-mtp \
            --spec-draft-n-max 3 \
            -ngl all \
            --ctx-size 163840 \
            -b 2048 -ub 512 \
            -np 1 \
            --kv-unified \
            --cache-type-k kvarn4 \
            --cache-type-v kvarn4 \
            --flash-attn on \
            --cache-ram 0 \
            --no-host \
            --jinja \
            --reasoning off \
            --temp 0.6 --top-k 20 --top-p 0.96 --min-p 0.01
      

      完美契合 Qwen3.6 的混合架构
      Qwen3.6 系列本身采用了混合注意力机制。llama.cpp 近期通过 --swa-full 等参数,完美适配了这种架构
      。社区测试表明,在重新评估 Qwen3.6-27B 时,开启 SWA 相关参数能完美解决长上下文下的显存泄漏和失效问题
      补充一下,看增加这个参数有没有好效果,这个参数在beellama上无效,可能是千问自己幻想的.抱歉了.

      1 条回复 最后回复
      1
      • kop wangK 在线
        kop wangK 在线
        kop wang
        超级版主
        编写于 最后由 编辑
        #3

        “--swa-full 等参数,完美适配了这种架构
        。社区测试表明,在重新评估 Qwen3.6-27B 时,开启 SWA 相关参数能完美解决长上下文下的显存泄漏和失效问题”

        很好的信息,如果有对应的信源引用地址就更好了。

        虚心交流,一起进步

        1 条回复 最后回复
        0
        • S 离线
          S 离线
          stxpnet
          技术大牛 劳动模范
          编写于 最后由 编辑
          #4

          现在开始用noonghunna的配置和镜像 测试 Qwopus CODER 3.6 27B MTP Q 5 KM.
          1d9604c1-9622-44e6-a2a7-75d58519b024-image.jpeg 权重就达到了19.5G,比我平时用的都多了6GB啊? 增加的这部分体积能起到相应的效果吗?
          一开始直接上160K,问第二段时直接爆显存(根本原因可能是我那440M显存开机被占用了,下次重装系统一定安装server版 headless系统)
          两段式生成文学试卷题,共花费59秒. 感觉比小模型要谨慎一些.
          同样丢 给在线的千问打分(已经开了分支对话,避免其它污染干扰)
          给出的分数是20分,这不稀奇,因为它是CODER模型,文学被削弱了是好事,说明编码能力可能被增强.

          6f835751-fd46-4fc2-9a08-ac0bcb5454e0-image.jpeg
          显存维持在22G左右(剩余1.9G)

          写俄罗斯方块用了3分钟,我玩了3分钟,基本无错.Q5权重 及coder优化 起到了相当的效果.

          81f4432a-b137-47f9-8d3f-5dc998f1bec7-image.jpeg
          写完之后显存占用没变,显存管理挺优秀.
          d7f8b4a5-309e-4d01-8dee-d90f705d0392-image.jpeg

          下面开始写中国象棋,我修改了一下提示词,防止需求内部矛盾导致后续 写了代码又大段大段删除.如果这个测试能完美,证明它的CODER能力确实有增强. 否则我还不如用unsloth的UD mtp模型呢.
          a3bca7df-c6c2-4da4-af4f-901e82847dd6-image.jpeg

          这个模型挺均衡的,给我显卡干到64度了,心疼显卡3秒钟.

          ae20e85c-1be1-4d73-8f77-e504523878ff-image.jpeg

          A J 2 条回复 最后回复
          0
          • S 离线
            S 离线
            stxpnet
            技术大牛 劳动模范
            编写于 最后由 编辑
            #5

            346e6cef-75b4-4ca7-ac31-cb0463621317-image.jpeg
            让它做的三国人物关系图,耗时13分钟,略带惊艳, 是最近我测试过的里面最好的了. 这个测试必须给98分啊.

            1 条回复 最后回复
            0
            • ,terryT terry 固定了此主题
            • S 离线
              S 离线
              stxpnet
              技术大牛 劳动模范
              编写于 最后由 编辑
              #6

              79f75114-0d89-469f-ac23-3aed55d7b352-image.jpeg
              今天有个非常大的收获,可以说是最近10天来史诗级的 进步.我的Hermes终于可以和我日常聊天了. 不要太爽. P100破显卡做副模型.哈哈.

              1 条回复 最后回复
              1
              • S stxpnet

                现在开始用noonghunna的配置和镜像 测试 Qwopus CODER 3.6 27B MTP Q 5 KM.
                1d9604c1-9622-44e6-a2a7-75d58519b024-image.jpeg 权重就达到了19.5G,比我平时用的都多了6GB啊? 增加的这部分体积能起到相应的效果吗?
                一开始直接上160K,问第二段时直接爆显存(根本原因可能是我那440M显存开机被占用了,下次重装系统一定安装server版 headless系统)
                两段式生成文学试卷题,共花费59秒. 感觉比小模型要谨慎一些.
                同样丢 给在线的千问打分(已经开了分支对话,避免其它污染干扰)
                给出的分数是20分,这不稀奇,因为它是CODER模型,文学被削弱了是好事,说明编码能力可能被增强.

                6f835751-fd46-4fc2-9a08-ac0bcb5454e0-image.jpeg
                显存维持在22G左右(剩余1.9G)

                写俄罗斯方块用了3分钟,我玩了3分钟,基本无错.Q5权重 及coder优化 起到了相当的效果.

                81f4432a-b137-47f9-8d3f-5dc998f1bec7-image.jpeg
                写完之后显存占用没变,显存管理挺优秀.
                d7f8b4a5-309e-4d01-8dee-d90f705d0392-image.jpeg

                下面开始写中国象棋,我修改了一下提示词,防止需求内部矛盾导致后续 写了代码又大段大段删除.如果这个测试能完美,证明它的CODER能力确实有增强. 否则我还不如用unsloth的UD mtp模型呢.
                a3bca7df-c6c2-4da4-af4f-901e82847dd6-image.jpeg

                这个模型挺均衡的,给我显卡干到64度了,心疼显卡3秒钟.

                ae20e85c-1be1-4d73-8f77-e504523878ff-image.jpeg

                A 离线
                A 离线
                applejuice
                劳动模范 德高望重
                编写于 最后由 编辑
                #7

                @stxpnet 我的显卡长期70+啊

                S 1 条回复 最后回复
                0
                • A applejuice

                  @stxpnet 我的显卡长期70+啊

                  S 离线
                  S 离线
                  stxpnet
                  技术大牛 劳动模范
                  编写于 最后由 编辑
                  #8

                  @applejuice 温度?

                  A 1 条回复 最后回复
                  0
                  • S stxpnet

                    @applejuice 温度?

                    A 离线
                    A 离线
                    applejuice
                    劳动模范 德高望重
                    编写于 最后由 编辑
                    #9

                    @stxpnet 对啊 只要一跑起来就70度

                    1 条回复 最后回复
                    0
                    • 5 离线
                      5 离线
                      566656661
                      超凡大师
                      编写于 最后由 编辑
                      #10

                      突然發現up寫的是MoQ

                      我還打算在這個周末測測看

                      1 条回复 最后回复
                      0
                      • S 离线
                        S 离线
                        stxpnet
                        技术大牛 劳动模范
                        编写于 最后由 编辑
                        #11

                        目前我已经切换到IQ4_XS了,我觉得这个才是最适合coding的量化格式。

                        5 1 条回复 最后回复
                        0
                        • S stxpnet

                          目前我已经切换到IQ4_XS了,我觉得这个才是最适合coding的量化格式。

                          5 离线
                          5 离线
                          566656661
                          超凡大师
                          编写于 最后由 编辑
                          #12

                          @stxpnet

                          我是打算測試的同時講一講MoQ的技術, 評分可能就引用這篇文了

                          IQ4_XS BPW就是Q4KM附近, 模型權重大約在15gb吧?

                          留8~9gb給kv cache給長上下文很不錯的

                          1 条回复 最后回复
                          0
                          • S 离线
                            S 离线
                            stxpnet
                            技术大牛 劳动模范
                            编写于 最后由 stxpnet 编辑
                            #13

                            可以多在reddit上搜索看一下,我昨晚看了,也有人在研究这个格式的kv cache了,对咱们这批老用户是个好消息.
                            我目前的体感是64K或者128K比较适合咱们这个卡. 开0.7的温度,和hermes聊天. 0.6的温度编程. 下面是各种kv cache 的分歧度. 及显存占用 ,二者都是越小越好. 但我还想到一层:
                            就是如果你的模型权重本身 是Q4的话,产生Q5或Q6级别的cache,可能会拖慢速度,因为它在原始权重中找不到对应的参数.要在KV CACHE里面找,可能拖慢速度. 所以有空可以试试Q5级别的权重.

                            51fe9640-998b-4bb5-8ab2-8a868a1f83ea-image.jpeg

                            5 1 条回复 最后回复
                            1
                            • S stxpnet

                              可以多在reddit上搜索看一下,我昨晚看了,也有人在研究这个格式的kv cache了,对咱们这批老用户是个好消息.
                              我目前的体感是64K或者128K比较适合咱们这个卡. 开0.7的温度,和hermes聊天. 0.6的温度编程. 下面是各种kv cache 的分歧度. 及显存占用 ,二者都是越小越好. 但我还想到一层:
                              就是如果你的模型权重本身 是Q4的话,产生Q5或Q6级别的cache,可能会拖慢速度,因为它在原始权重中找不到对应的参数.要在KV CACHE里面找,可能拖慢速度. 所以有空可以试试Q5级别的权重.

                              51fe9640-998b-4bb5-8ab2-8a868a1f83ea-image.jpeg

                              5 离线
                              5 离线
                              566656661
                              超凡大师
                              编写于 最后由 566656661 编辑
                              #14

                              @stxpnet

                              我自己的認知是要不模型權重量化跟KV Cache同Bit等級(Q8對上FP8, 8 : 8 ~= 1 : 1), 要不就是容易Scale Up (Q4 對上FP8, 4.x : 8 ~= 1 : 2)

                              如果沒對上的話應該要額外再增加一個轉換程序, Prefill會慢,外加有額外精度損失 (不記本身Scale up/down的話), 比較直觀的話就是KLD了

                              1 条回复 最后回复
                              0
                              • ,系统 取消固定了此主题
                              • C 离线
                                C 离线
                                c0aster
                                编写于 最后由 编辑
                                #15

                                坐等大佬更新,等一波抄作业

                                1 条回复 最后回复
                                0
                                • ,5 566656661 引用了 此主题
                                • S stxpnet

                                  现在开始用noonghunna的配置和镜像 测试 Qwopus CODER 3.6 27B MTP Q 5 KM.
                                  1d9604c1-9622-44e6-a2a7-75d58519b024-image.jpeg 权重就达到了19.5G,比我平时用的都多了6GB啊? 增加的这部分体积能起到相应的效果吗?
                                  一开始直接上160K,问第二段时直接爆显存(根本原因可能是我那440M显存开机被占用了,下次重装系统一定安装server版 headless系统)
                                  两段式生成文学试卷题,共花费59秒. 感觉比小模型要谨慎一些.
                                  同样丢 给在线的千问打分(已经开了分支对话,避免其它污染干扰)
                                  给出的分数是20分,这不稀奇,因为它是CODER模型,文学被削弱了是好事,说明编码能力可能被增强.

                                  6f835751-fd46-4fc2-9a08-ac0bcb5454e0-image.jpeg
                                  显存维持在22G左右(剩余1.9G)

                                  写俄罗斯方块用了3分钟,我玩了3分钟,基本无错.Q5权重 及coder优化 起到了相当的效果.

                                  81f4432a-b137-47f9-8d3f-5dc998f1bec7-image.jpeg
                                  写完之后显存占用没变,显存管理挺优秀.
                                  d7f8b4a5-309e-4d01-8dee-d90f705d0392-image.jpeg

                                  下面开始写中国象棋,我修改了一下提示词,防止需求内部矛盾导致后续 写了代码又大段大段删除.如果这个测试能完美,证明它的CODER能力确实有增强. 否则我还不如用unsloth的UD mtp模型呢.
                                  a3bca7df-c6c2-4da4-af4f-901e82847dd6-image.jpeg

                                  这个模型挺均衡的,给我显卡干到64度了,心疼显卡3秒钟.

                                  ae20e85c-1be1-4d73-8f77-e504523878ff-image.jpeg

                                  J 离线
                                  J 离线
                                  johnnybegood
                                  德高望重 劳动模范
                                  编写于 最后由 编辑
                                  #16

                                  @stxpnet 平时我只要跑起来就 90度啊。。。

                                  S 1 条回复 最后回复
                                  0
                                  • J johnnybegood

                                    @stxpnet 平时我只要跑起来就 90度啊。。。

                                    S 离线
                                    S 离线
                                    stxpnet
                                    技术大牛 劳动模范
                                    编写于 最后由 编辑
                                    #17

                                    @johnnybegood 90度,nvtop显示GPU和显存频率分别多少呢? 我的显卡要是到80度我就直接停了,我平时高负载从来没有超过70度过。

                                    1 条回复 最后回复
                                    1

                                    你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                    厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                    有了你的建议,这篇帖子会更精彩哦 💗

                                    注册 登录
                                    回复
                                    • 在新帖中回复
                                    登录后回复
                                    • 从旧到新
                                    • 从新到旧
                                    • 最多赞同


                                    • 登录

                                    • 没有帐号? 注册

                                    • 第一个帖子
                                      最后一个帖子
                                    0
                                    • 版块
                                    • 最新
                                    • 标签
                                    • 热门
                                    • 用户
                                    • 群组