跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 全站首发:RTX 3090 24G 无痛爽玩 华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论)

全站首发:RTX 3090 24G 无痛爽玩 华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论)

已定时 已固定 已锁定 已移动 LLM讨论区
17 帖子 6 发布者 360 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • S 离线
    S 离线
    stxpnet
    技术大牛 劳动模范
    编写于 最后由 编辑
    #4

    现在开始用noonghunna的配置和镜像 测试 Qwopus CODER 3.6 27B MTP Q 5 KM.
    1d9604c1-9622-44e6-a2a7-75d58519b024-image.jpeg 权重就达到了19.5G,比我平时用的都多了6GB啊? 增加的这部分体积能起到相应的效果吗?
    一开始直接上160K,问第二段时直接爆显存(根本原因可能是我那440M显存开机被占用了,下次重装系统一定安装server版 headless系统)
    两段式生成文学试卷题,共花费59秒. 感觉比小模型要谨慎一些.
    同样丢 给在线的千问打分(已经开了分支对话,避免其它污染干扰)
    给出的分数是20分,这不稀奇,因为它是CODER模型,文学被削弱了是好事,说明编码能力可能被增强.

    6f835751-fd46-4fc2-9a08-ac0bcb5454e0-image.jpeg
    显存维持在22G左右(剩余1.9G)

    写俄罗斯方块用了3分钟,我玩了3分钟,基本无错.Q5权重 及coder优化 起到了相当的效果.

    81f4432a-b137-47f9-8d3f-5dc998f1bec7-image.jpeg
    写完之后显存占用没变,显存管理挺优秀.
    d7f8b4a5-309e-4d01-8dee-d90f705d0392-image.jpeg

    下面开始写中国象棋,我修改了一下提示词,防止需求内部矛盾导致后续 写了代码又大段大段删除.如果这个测试能完美,证明它的CODER能力确实有增强. 否则我还不如用unsloth的UD mtp模型呢.
    a3bca7df-c6c2-4da4-af4f-901e82847dd6-image.jpeg

    这个模型挺均衡的,给我显卡干到64度了,心疼显卡3秒钟.

    ae20e85c-1be1-4d73-8f77-e504523878ff-image.jpeg

    A J 2 条回复 最后回复
    0
    • S 离线
      S 离线
      stxpnet
      技术大牛 劳动模范
      编写于 最后由 编辑
      #5

      346e6cef-75b4-4ca7-ac31-cb0463621317-image.jpeg
      让它做的三国人物关系图,耗时13分钟,略带惊艳, 是最近我测试过的里面最好的了. 这个测试必须给98分啊.

      1 条回复 最后回复
      0
      • ,terryT terry 固定了此主题
      • S 离线
        S 离线
        stxpnet
        技术大牛 劳动模范
        编写于 最后由 编辑
        #6

        79f75114-0d89-469f-ac23-3aed55d7b352-image.jpeg
        今天有个非常大的收获,可以说是最近10天来史诗级的 进步.我的Hermes终于可以和我日常聊天了. 不要太爽. P100破显卡做副模型.哈哈.

        1 条回复 最后回复
        1
        • S stxpnet

          现在开始用noonghunna的配置和镜像 测试 Qwopus CODER 3.6 27B MTP Q 5 KM.
          1d9604c1-9622-44e6-a2a7-75d58519b024-image.jpeg 权重就达到了19.5G,比我平时用的都多了6GB啊? 增加的这部分体积能起到相应的效果吗?
          一开始直接上160K,问第二段时直接爆显存(根本原因可能是我那440M显存开机被占用了,下次重装系统一定安装server版 headless系统)
          两段式生成文学试卷题,共花费59秒. 感觉比小模型要谨慎一些.
          同样丢 给在线的千问打分(已经开了分支对话,避免其它污染干扰)
          给出的分数是20分,这不稀奇,因为它是CODER模型,文学被削弱了是好事,说明编码能力可能被增强.

          6f835751-fd46-4fc2-9a08-ac0bcb5454e0-image.jpeg
          显存维持在22G左右(剩余1.9G)

          写俄罗斯方块用了3分钟,我玩了3分钟,基本无错.Q5权重 及coder优化 起到了相当的效果.

          81f4432a-b137-47f9-8d3f-5dc998f1bec7-image.jpeg
          写完之后显存占用没变,显存管理挺优秀.
          d7f8b4a5-309e-4d01-8dee-d90f705d0392-image.jpeg

          下面开始写中国象棋,我修改了一下提示词,防止需求内部矛盾导致后续 写了代码又大段大段删除.如果这个测试能完美,证明它的CODER能力确实有增强. 否则我还不如用unsloth的UD mtp模型呢.
          a3bca7df-c6c2-4da4-af4f-901e82847dd6-image.jpeg

          这个模型挺均衡的,给我显卡干到64度了,心疼显卡3秒钟.

          ae20e85c-1be1-4d73-8f77-e504523878ff-image.jpeg

          A 离线
          A 离线
          applejuice
          劳动模范 德高望重
          编写于 最后由 编辑
          #7

          @stxpnet 我的显卡长期70+啊

          S 1 条回复 最后回复
          0
          • A applejuice

            @stxpnet 我的显卡长期70+啊

            S 离线
            S 离线
            stxpnet
            技术大牛 劳动模范
            编写于 最后由 编辑
            #8

            @applejuice 温度?

            A 1 条回复 最后回复
            0
            • S stxpnet

              @applejuice 温度?

              A 离线
              A 离线
              applejuice
              劳动模范 德高望重
              编写于 最后由 编辑
              #9

              @stxpnet 对啊 只要一跑起来就70度

              1 条回复 最后回复
              0
              • 5 离线
                5 离线
                566656661
                超凡大师
                编写于 最后由 编辑
                #10

                突然發現up寫的是MoQ

                我還打算在這個周末測測看

                1 条回复 最后回复
                0
                • S 离线
                  S 离线
                  stxpnet
                  技术大牛 劳动模范
                  编写于 最后由 编辑
                  #11

                  目前我已经切换到IQ4_XS了,我觉得这个才是最适合coding的量化格式。

                  5 1 条回复 最后回复
                  0
                  • S stxpnet

                    目前我已经切换到IQ4_XS了,我觉得这个才是最适合coding的量化格式。

                    5 离线
                    5 离线
                    566656661
                    超凡大师
                    编写于 最后由 编辑
                    #12

                    @stxpnet

                    我是打算測試的同時講一講MoQ的技術, 評分可能就引用這篇文了

                    IQ4_XS BPW就是Q4KM附近, 模型權重大約在15gb吧?

                    留8~9gb給kv cache給長上下文很不錯的

                    1 条回复 最后回复
                    0
                    • S 离线
                      S 离线
                      stxpnet
                      技术大牛 劳动模范
                      编写于 最后由 stxpnet 编辑
                      #13

                      可以多在reddit上搜索看一下,我昨晚看了,也有人在研究这个格式的kv cache了,对咱们这批老用户是个好消息.
                      我目前的体感是64K或者128K比较适合咱们这个卡. 开0.7的温度,和hermes聊天. 0.6的温度编程. 下面是各种kv cache 的分歧度. 及显存占用 ,二者都是越小越好. 但我还想到一层:
                      就是如果你的模型权重本身 是Q4的话,产生Q5或Q6级别的cache,可能会拖慢速度,因为它在原始权重中找不到对应的参数.要在KV CACHE里面找,可能拖慢速度. 所以有空可以试试Q5级别的权重.

                      51fe9640-998b-4bb5-8ab2-8a868a1f83ea-image.jpeg

                      5 1 条回复 最后回复
                      1
                      • S stxpnet

                        可以多在reddit上搜索看一下,我昨晚看了,也有人在研究这个格式的kv cache了,对咱们这批老用户是个好消息.
                        我目前的体感是64K或者128K比较适合咱们这个卡. 开0.7的温度,和hermes聊天. 0.6的温度编程. 下面是各种kv cache 的分歧度. 及显存占用 ,二者都是越小越好. 但我还想到一层:
                        就是如果你的模型权重本身 是Q4的话,产生Q5或Q6级别的cache,可能会拖慢速度,因为它在原始权重中找不到对应的参数.要在KV CACHE里面找,可能拖慢速度. 所以有空可以试试Q5级别的权重.

                        51fe9640-998b-4bb5-8ab2-8a868a1f83ea-image.jpeg

                        5 离线
                        5 离线
                        566656661
                        超凡大师
                        编写于 最后由 566656661 编辑
                        #14

                        @stxpnet

                        我自己的認知是要不模型權重量化跟KV Cache同Bit等級(Q8對上FP8, 8 : 8 ~= 1 : 1), 要不就是容易Scale Up (Q4 對上FP8, 4.x : 8 ~= 1 : 2)

                        如果沒對上的話應該要額外再增加一個轉換程序, Prefill會慢,外加有額外精度損失 (不記本身Scale up/down的話), 比較直觀的話就是KLD了

                        1 条回复 最后回复
                        0
                        • ,系统 取消固定了此主题
                        • C 离线
                          C 离线
                          c0aster
                          编写于 最后由 编辑
                          #15

                          坐等大佬更新,等一波抄作业

                          1 条回复 最后回复
                          0
                          • ,5 566656661 引用了 此主题
                          • S stxpnet

                            现在开始用noonghunna的配置和镜像 测试 Qwopus CODER 3.6 27B MTP Q 5 KM.
                            1d9604c1-9622-44e6-a2a7-75d58519b024-image.jpeg 权重就达到了19.5G,比我平时用的都多了6GB啊? 增加的这部分体积能起到相应的效果吗?
                            一开始直接上160K,问第二段时直接爆显存(根本原因可能是我那440M显存开机被占用了,下次重装系统一定安装server版 headless系统)
                            两段式生成文学试卷题,共花费59秒. 感觉比小模型要谨慎一些.
                            同样丢 给在线的千问打分(已经开了分支对话,避免其它污染干扰)
                            给出的分数是20分,这不稀奇,因为它是CODER模型,文学被削弱了是好事,说明编码能力可能被增强.

                            6f835751-fd46-4fc2-9a08-ac0bcb5454e0-image.jpeg
                            显存维持在22G左右(剩余1.9G)

                            写俄罗斯方块用了3分钟,我玩了3分钟,基本无错.Q5权重 及coder优化 起到了相当的效果.

                            81f4432a-b137-47f9-8d3f-5dc998f1bec7-image.jpeg
                            写完之后显存占用没变,显存管理挺优秀.
                            d7f8b4a5-309e-4d01-8dee-d90f705d0392-image.jpeg

                            下面开始写中国象棋,我修改了一下提示词,防止需求内部矛盾导致后续 写了代码又大段大段删除.如果这个测试能完美,证明它的CODER能力确实有增强. 否则我还不如用unsloth的UD mtp模型呢.
                            a3bca7df-c6c2-4da4-af4f-901e82847dd6-image.jpeg

                            这个模型挺均衡的,给我显卡干到64度了,心疼显卡3秒钟.

                            ae20e85c-1be1-4d73-8f77-e504523878ff-image.jpeg

                            J 离线
                            J 离线
                            johnnybegood
                            德高望重 劳动模范
                            编写于 最后由 编辑
                            #16

                            @stxpnet 平时我只要跑起来就 90度啊。。。

                            S 1 条回复 最后回复
                            0
                            • J johnnybegood

                              @stxpnet 平时我只要跑起来就 90度啊。。。

                              S 离线
                              S 离线
                              stxpnet
                              技术大牛 劳动模范
                              编写于 最后由 编辑
                              #17

                              @johnnybegood 90度,nvtop显示GPU和显存频率分别多少呢? 我的显卡要是到80度我就直接停了,我平时高负载从来没有超过70度过。

                              1 条回复 最后回复
                              1

                              你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                              厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                              有了你的建议,这篇帖子会更精彩哦 💗

                              注册 登录
                              回复
                              • 在新帖中回复
                              登录后回复
                              • 从旧到新
                              • 从新到旧
                              • 最多赞同


                              • 登录

                              • 没有帐号? 注册

                              • 第一个帖子
                                最后一个帖子
                              0
                              • 版块
                              • 最新
                              • 标签
                              • 热门
                              • 用户
                              • 群组