跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 全站首发:RTX 3090 24G 无痛爽玩 华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论)

全站首发:RTX 3090 24G 无痛爽玩 华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论)

已定时 已固定 已锁定 已移动 LLM讨论区
17 帖子 6 发布者 358 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • A applejuice

    @stxpnet 我的显卡长期70+啊

    S 离线
    S 离线
    stxpnet
    技术大牛 劳动模范
    编写于 最后由 编辑
    #8

    @applejuice 温度?

    A 1 条回复 最后回复
    0
    • S stxpnet

      @applejuice 温度?

      A 离线
      A 离线
      applejuice
      劳动模范 德高望重
      编写于 最后由 编辑
      #9

      @stxpnet 对啊 只要一跑起来就70度

      1 条回复 最后回复
      0
      • 5 在线
        5 在线
        566656661
        超凡大师
        编写于 最后由 编辑
        #10

        突然發現up寫的是MoQ

        我還打算在這個周末測測看

        1 条回复 最后回复
        0
        • S 离线
          S 离线
          stxpnet
          技术大牛 劳动模范
          编写于 最后由 编辑
          #11

          目前我已经切换到IQ4_XS了,我觉得这个才是最适合coding的量化格式。

          5 1 条回复 最后回复
          0
          • S stxpnet

            目前我已经切换到IQ4_XS了,我觉得这个才是最适合coding的量化格式。

            5 在线
            5 在线
            566656661
            超凡大师
            编写于 最后由 编辑
            #12

            @stxpnet

            我是打算測試的同時講一講MoQ的技術, 評分可能就引用這篇文了

            IQ4_XS BPW就是Q4KM附近, 模型權重大約在15gb吧?

            留8~9gb給kv cache給長上下文很不錯的

            1 条回复 最后回复
            0
            • S 离线
              S 离线
              stxpnet
              技术大牛 劳动模范
              编写于 最后由 stxpnet 编辑
              #13

              可以多在reddit上搜索看一下,我昨晚看了,也有人在研究这个格式的kv cache了,对咱们这批老用户是个好消息.
              我目前的体感是64K或者128K比较适合咱们这个卡. 开0.7的温度,和hermes聊天. 0.6的温度编程. 下面是各种kv cache 的分歧度. 及显存占用 ,二者都是越小越好. 但我还想到一层:
              就是如果你的模型权重本身 是Q4的话,产生Q5或Q6级别的cache,可能会拖慢速度,因为它在原始权重中找不到对应的参数.要在KV CACHE里面找,可能拖慢速度. 所以有空可以试试Q5级别的权重.

              51fe9640-998b-4bb5-8ab2-8a868a1f83ea-image.jpeg

              5 1 条回复 最后回复
              1
              • S stxpnet

                可以多在reddit上搜索看一下,我昨晚看了,也有人在研究这个格式的kv cache了,对咱们这批老用户是个好消息.
                我目前的体感是64K或者128K比较适合咱们这个卡. 开0.7的温度,和hermes聊天. 0.6的温度编程. 下面是各种kv cache 的分歧度. 及显存占用 ,二者都是越小越好. 但我还想到一层:
                就是如果你的模型权重本身 是Q4的话,产生Q5或Q6级别的cache,可能会拖慢速度,因为它在原始权重中找不到对应的参数.要在KV CACHE里面找,可能拖慢速度. 所以有空可以试试Q5级别的权重.

                51fe9640-998b-4bb5-8ab2-8a868a1f83ea-image.jpeg

                5 在线
                5 在线
                566656661
                超凡大师
                编写于 最后由 566656661 编辑
                #14

                @stxpnet

                我自己的認知是要不模型權重量化跟KV Cache同Bit等級(Q8對上FP8, 8 : 8 ~= 1 : 1), 要不就是容易Scale Up (Q4 對上FP8, 4.x : 8 ~= 1 : 2)

                如果沒對上的話應該要額外再增加一個轉換程序, Prefill會慢,外加有額外精度損失 (不記本身Scale up/down的話), 比較直觀的話就是KLD了

                1 条回复 最后回复
                0
                • ,系统 取消固定了此主题
                • C 离线
                  C 离线
                  c0aster
                  编写于 最后由 编辑
                  #15

                  坐等大佬更新,等一波抄作业

                  1 条回复 最后回复
                  0
                  • ,5 566656661 引用了 此主题
                  • S stxpnet

                    现在开始用noonghunna的配置和镜像 测试 Qwopus CODER 3.6 27B MTP Q 5 KM.
                    1d9604c1-9622-44e6-a2a7-75d58519b024-image.jpeg 权重就达到了19.5G,比我平时用的都多了6GB啊? 增加的这部分体积能起到相应的效果吗?
                    一开始直接上160K,问第二段时直接爆显存(根本原因可能是我那440M显存开机被占用了,下次重装系统一定安装server版 headless系统)
                    两段式生成文学试卷题,共花费59秒. 感觉比小模型要谨慎一些.
                    同样丢 给在线的千问打分(已经开了分支对话,避免其它污染干扰)
                    给出的分数是20分,这不稀奇,因为它是CODER模型,文学被削弱了是好事,说明编码能力可能被增强.

                    6f835751-fd46-4fc2-9a08-ac0bcb5454e0-image.jpeg
                    显存维持在22G左右(剩余1.9G)

                    写俄罗斯方块用了3分钟,我玩了3分钟,基本无错.Q5权重 及coder优化 起到了相当的效果.

                    81f4432a-b137-47f9-8d3f-5dc998f1bec7-image.jpeg
                    写完之后显存占用没变,显存管理挺优秀.
                    d7f8b4a5-309e-4d01-8dee-d90f705d0392-image.jpeg

                    下面开始写中国象棋,我修改了一下提示词,防止需求内部矛盾导致后续 写了代码又大段大段删除.如果这个测试能完美,证明它的CODER能力确实有增强. 否则我还不如用unsloth的UD mtp模型呢.
                    a3bca7df-c6c2-4da4-af4f-901e82847dd6-image.jpeg

                    这个模型挺均衡的,给我显卡干到64度了,心疼显卡3秒钟.

                    ae20e85c-1be1-4d73-8f77-e504523878ff-image.jpeg

                    J 离线
                    J 离线
                    johnnybegood
                    德高望重 劳动模范
                    编写于 最后由 编辑
                    #16

                    @stxpnet 平时我只要跑起来就 90度啊。。。

                    S 1 条回复 最后回复
                    0
                    • J johnnybegood

                      @stxpnet 平时我只要跑起来就 90度啊。。。

                      S 离线
                      S 离线
                      stxpnet
                      技术大牛 劳动模范
                      编写于 最后由 编辑
                      #17

                      @johnnybegood 90度,nvtop显示GPU和显存频率分别多少呢? 我的显卡要是到80度我就直接停了,我平时高负载从来没有超过70度过。

                      1 条回复 最后回复
                      1

                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                      有了你的建议,这篇帖子会更精彩哦 💗

                      注册 登录
                      回复
                      • 在新帖中回复
                      登录后回复
                      • 从旧到新
                      • 从新到旧
                      • 最多赞同


                      • 登录

                      • 没有帐号? 注册

                      • 第一个帖子
                        最后一个帖子
                      0
                      • 版块
                      • 最新
                      • 标签
                      • 热门
                      • 用户
                      • 群组