跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 26-06-22:极限压榨:RTX 3090 24G(真正中质量长上下文 168K 达成)

26-06-22:极限压榨:RTX 3090 24G(真正中质量长上下文 168K 达成)

已定时 已固定 已锁定 已移动 LLM讨论区
13 帖子 6 发布者 263 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • S 离线
    S 离线
    stxpnet
    技术大牛 劳动模范
    编写于 最后由 编辑
    #4

    242d8b99-eed2-4d01-87cb-8555ab7d7a59-image.jpeg 这次10分钟就好了。opencode没有内置浏览器无法测试。

    不过还是有两个严重的BUG,再让它修一下吧。不行就重新 用双q8的 k v cache来跑了。
    8c80307d-0f01-466a-9998-48fb3ab36408-image.jpeg

    1 条回复 最后回复
    0
    • S 离线
      S 离线
      stxpnet
      技术大牛 劳动模范
      编写于 最后由 编辑
      #5

      最后的稳定参数,请24G NVIDIA卡友自测,
      只差日志里面的一个 raw tool marker observed while lazy grammar is enabled; active grammar will be handled by the sampler in_reasoning 解决不了了
      可以换框架加--peg参数。

      killall llama-server 2>/dev/null; sleep 3
             /data/model2/beellma616-kv.cpp/build/bin/llama-server \
      -m  /data/model3/ubergarm-Qwen3.6-27B-smol-MTP-IQ4_NL-ihavenoclue.gguf \
      -ngl 9999 --props \
      -fa on --metrics  --ctx-size 158000 -n 14000  \
      -ctk kvarn8 -ctv kvarn8 --kv-unified \
      --spec-type mtp --spec-draft-n-max 3 \
      --jinja --no-mmap --mlock -np 1   -b 2048 -ub 512  \
      --host 0.0.0.0 --port 8025 \
      --reasoning off \
        --chat-template-kwargs '{"preserve_thinking":true}' \
      --reasoning-format deepseek --reasoning-budget 1024 \
        --chat-template-file /data/model2/qwen3.6-27b-gguf/chat_template-Carnice27B-MTP-opt-v2.jinja \
       --temp 0.61 --top-k 20 --top-p 0.95 --min-p 0.05 --repeat-last-n 128
      

      622am6 最佳hermes

            ```
      

      killall llama-server 2>/dev/null; sleep 3
      /data/model2/beellma616-kv.cpp/build/bin/llama-server
      -m /data/model3/ubergarm-Qwen3.6-27B-smol-MTP-IQ4_NL-ihavenoclue.gguf
      -ngl 9999 --props
      -fa on --metrics --ctx-size 148000 -n 14000
      -ctk kvarn8 -ctv kvarn8 --kv-unified
      --spec-type mtp --spec-draft-n-max 3
      --jinja --no-mmap --mlock -np 1 -b 2048 -ub 512
      --host 0.0.0.0 --port 8025
      --reasoning off
      --chat-template-kwargs '{"preserve_thinking":true}'
      --reasoning-format deepseek --reasoning-budget 1024
      --chat-template-file /data/model2/qwen3.6-27b-gguf/chat_template-Carnice27B-MTP-opt-v2.jinja
      --temp 0.72 --top-k 20 --top-p 0.87 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0

      
      
      模板文件在这里:https://wormhole.app/R8K7Ka#EQllW_B3xTm2odW6hSr1Nw
      1 条回复 最后回复
      0
      • S 离线
        S 离线
        stxpnet
        技术大牛 劳动模范
        编写于 最后由 stxpnet 编辑
        #6

        f6bff296-83b6-431a-8723-28f603c783ff-image.jpeg
        产生的中国象棋,我试玩了内核算法可能有问题,但是它已经按我最初的要求实现了象棋的最小MVP产品。 相信如果安装好了codegraph,它就能更好独自的处理这种多文件项目。

        神图镇楼:
        39b5a531-b60a-439b-ac5a-8f141d3480f7-image.jpeg

        77b5d6a6-5ba8-42d8-9140-4753fe721023-image.jpeg

        8e08e7ab-a7c1-4184-85bf-f03bf6e8994c-image.jpeg
        Q4KM和Q3KM是多么的节能啊!
        个人以为,多数场景,真正重要的是外部(用户输入的提示词)与 模型内部 固有的) 二者都是Q4量化,二者的乘积产生的Q8量化结果,在整个使用过程中 疯狂运算。从而得到用户期望的结果。 这个过程,自然是Q8权重的模型更耗电。

        踩过的坑:
        81b38042-ed2b-4ceb-96ba-1139f09b72db-image.jpeg

        1 条回复 最后回复
        0
        • 5 离线
          5 离线
          566656661
          超凡大师
          编写于 最后由 编辑
          #7

          KVarN原來不是vLLM限定?

          還是外國大神們手作一個出來

          1 条回复 最后回复
          0
          • A 离线
            A 离线
            applejuice
            劳动模范 德高望重
            编写于 最后由 编辑
            #8

            KVarN 是turboquant 的 2.3–3.7×?
            两张3090 不是500k+ 上下文?

            1 条回复 最后回复
            0
            • ,系统 取消固定了此主题
            • S stxpnet

              本来还想再多测几天再发帖的,但今晚实在兴奋得睡不着,干脆先把这套配置分享出来给同好们抄作业。经过几天折腾,终于在 HuggingFace 上找到了一个真正适配 24G 显卡长上下文场景的 MTP 模型,配合华为 KVarN KV 缓存量化和 Beellama 分支,把 3090 这块"24G 尴尬卡"压榨到了一个我自己都没想到的程度。

              🎯 一句话结论
              在 RTX 3090 24G 上,用 Qwen3.6-27B-smol-MTP-IQ4_NL.gguf + Beellma(6月16日编译版)+ KVarN K6/V5 KV 量化 + MTP n=3 推测解码,可以稳定撑起 168K 上下文,生成速度稳在 55 T/s 左右、接受率 70–80%,显存占用 22G 出头,编程实测可用度相当能打。

              🧠 关键洞察:1. MTP 头的量化等级才是 24G 的命门
              折腾了一圈带内置 MTP 的模型后,我发现一个被大多数人忽略的点:

              大多数内置 MTP 的模型,注意力头(draft head)的量化控制都拉胯,尤其是那些 15G 以内的版本。

              很多作者为了让模型在 16G 显卡上跑 32K 上下文、刷个分、发个推,根本没考虑真实长上下文需求。这类模型一旦上下文推到 80K–90K 之后,速度就会断崖式掉到 20–30 T/s——原因正是它们的 MTP 头也是 Q4 以下量化的,长上下文下 draft 质量崩了,接受率雪崩,推测解码反而变成累赘。

              而这次找到的这款模型(作者 IHaveNoClueAndIMustPost),在模型卡上明确写明了"适配 131K 上下文的 24G 显卡,根据 KV 量化等级可增减"。目测它的 MTP 头应该是 Q6 级别的,这点至关重要!

              24G 显卡的尴尬就在这里:

              MTP 头选 Q8 → 占用偏大 → 没地方放高质量 KV Cache
              MTP 头选 Q4 以下 → 短上下文看着快,长上下文接受率崩盘
              Q6 级别的 MTP 头 + KVarN 量化的 KV Cache,是我目前试下来 24G 卡上最平衡的组合。

              1. 温度,温度,温度! 笔者 端午后两天在家,24小时开着空调,据回忆,显卡的满载温度在40-55度左右。
                今天上班了,远程回家再测,HERMES满载,温度已经62-65度了。
                别小看这10多度,目测估计 至少降低了 15%-20%的token生成率。

              3.beellama 后期可能会由于 显存不足而产生 将Checkpoint 在显存与内存之间疯狂腾挪,直观的感受就是速率直降,如果你不想这样,那请加--cache-ram 0 (后果就是旧的检查点被覆盖,直接“失忆”,无法很好的完成工作!)

              ⚙️ 环境与启动参数
              硬件/软件:

              GPU:RTX 3090 24G
              CUDA:12.4(nvcc --version 确认)
              推理后端:Beellma 3.2 预览版,6 月 16 日自编译版本(选它唯一的原因:支持华为 KVarN KV Cache)
              模型:ubergarm-Qwen3.6-27B-smol-MTP-IQ4_NL-ihavenoclue.gguf(约 17G,Q4 级)
              KV Cache:K = kvarn6,V = kvarn6,统一模式开启

              6-22 上午最佳编程配置:

              killall llama-server 2>/dev/null; sleep 3
              /data/model2/beellma616-kv.cpp/build/bin/llama-server
              -m /data/model3/ubergarm-Qwen3.6-27B-smol-MTP-IQ4_NL-ihavenoclue.gguf
              -ngl 9999 --props
              -fa on --metrics --ctx-size 168000 -n 16000
              -ctk kvarn6 -ctv kvarn6 --kv-unified
              --spec-type mtp --spec-draft-n-max 3
              --jinja --no-mmap --mlock -np 1 -b 2048 -ub 512
              --host 0.0.0.0 --port 8025
              --reasoning off
              --chat-template-kwargs '{"preserve_thinking":true}'
              --reasoning-format deepseek --reasoning-budget 1024
              --chat-template-file /data/model2/qwen3.6-27b-gguf/chat_template-Carnice27B-MTP-opt-v2.jinja
              --temp 0.62 --top-k 20 --top-p 0.95 --min-p 0.05 --repeat-last-n 128
              几个关键参数的取舍说明:

              参数 取值 作用与取舍
              -ctk kvarn6 -ctv kvarn6 K=6bit / V=6bit 华为 KVarN 方差归一化量化,长上下文下精度接近 Q8_0,显存压缩 3–5 倍

              --kv-unified on K/V 统一缓冲,减少调度开销
              --spec-type mtp --spec-draft-n-max 3 MTP n=3 每步预测 3 token,实测接受率 70–80%,再高接受率掉得明显

              -b 2048 -ub 512 逻辑/物理批 偏保守以保证显存稳定,后续可试 ub=1024 提升预填充
              --reasoning off --reasoning-budget 1024 关思考+预算 1024 编程任务关掉思考链更稳,避免 harness 冲突
              --temp 0.62 --top-k 20 --top-p 0.95 --min-p 0.05 Qwen 推荐采样

              🧪 实测三连:中国象棋 / 俄罗斯方块 / opencode 长上下文
              测试一:中国象棋 HTML(多文件工作流)❌
              一上来直接挑战老项目。这几天我已经把提示词改成多文件模式,明确禁止 AI 一次性生成单文件——这项目跑 MVP 也要 1500 行左右,单文件很容易卡死。

              我没指望这个 Q4 的 17G 模型有多惊喜,所以没计时间就去洗澡了。洗完回来发现它还在自动调试,工具调用依然不完美。手动停掉、修了几个 JS 错误后,双机对战还是不能用,放弃。

              毕竟是 Q4 的 17G 模型,不能期望太高。之前测这套提示词,只有 Qwopus-coder 27B 的表现最完美。

              测试二:俄罗斯方块单文件(TRAE)✅
              再在 TRAE 里测俄罗斯方块单文件,两分钟就完成了。让它修复 JS 错误后基本无错运行,TRAE 版 890 行。

              测试三:俄罗斯方块单文件(opencode,本地模型)✅
              同样提示词丢给 opencode,明确让它不要用在线模型。结果它用了 10 分钟左右、耗用 50K token,直接无错运行,opencode 版 850 行。

              f2ee18d9-f8b2-42c3-9d13-c20dc143cd8f-image.jpeg

              aeb0faad-8042-4949-a73b-ce87601e64f9-image.jpeg

              测试四:中国象棋(opencode 长上下文压测)⚠️
              71f04124-083d-4d4e-8351-02e28921c825-image.jpeg
              再让 opencode 跑中国象棋。此时任务 ID 已经到 19000 多了,拉到最上面只能看到 9000 多的。预填充速度已变为 1300 MB/s,说明旧的检查点已被弃用。

              跑了一会儿后,opencode 的上下文到了 30 多 K tokens。约 12 分钟时,168K 上下文开始翻转,日志大量删除、重建 KV Cache——KVarN 在长上下文翻页时的表现比 Q4_0 平滑很多,没有出现明显的速度塌方。

              4b0bef4b-8840-4151-ba8f-a0ac6ff31c00-image.jpeg

              到收尾整合阶段,opencode 思考得有点多,任务 ID 涨到 28000,速度降到 45 T/s。在这里它绕了 10 分钟才到最后一步——Qwen 这个配置的"智商"和 opencode 内置的 harness 应该产生了冲突,棋子位置都是错的。打断、让它上网查标准棋盘布局,还是做不好,只能放弃,让它做交接总结。
              f1121450-fe1a-4fbf-a9fa-5dcaec354a11-image.jpeg

              ed2ed3e7-e1d3-4a6f-8ae2-859294bf7849-image.jpeg

              做完差点撞到 168K 上限,好险!这也说明这套配置的长上下文承压能力是真实的,不是跑分跑出来的。
              978d2e4a-c69c-47fc-a440-ad37156324bb-image.jpeg

              📊 性能与显存数据
              指标 数值
              显存占用 22G 出头(ub 不激进时可稳定,大胆点能压到 23G)
              稳定生成速度 ~55 T/s
              后期降速 ~45 T/s(上下文翻页 + 任务 ID 2.8 万时)
              MTP 接受率 70–80%
              预填充速度(缓存失效后) ~1300 MB/s
              上下文翻转 约 12 分钟触发一次 KV Cache 重建
              观察:填充率略偏低,如果把 -ub 从 512 改到 1024 应该有改善,下一步会试。

              🐛 已知不足

              1. raw tool marker observed while lazy grammar is enabled 紫色提示依然存在

              这条提示在工具调用时会反复刷。问过 Gemini,查找的结论大概是建议用 --peg 参数处理 lazy grammar 与 raw tool marker 的冲突,但 Beellma 没有 --peg 这个参数。而我必须用 Beellma 的原因是它支持华为 KVarN KV Cache,这是硬需求,只能无奈放弃这个修复。

              1. chat 模板是英文的,导致思考过程和解释都是英文

              这套 chat_template-Carnice27B-MTP-opt-v2.jinja 是英文模板,IDE 里的思考过程、解释全是英文。如果能汉化就完美了。不过对我来说倒无所谓,正好练英语。有能力的同学可以基于它做个中文版 jinja 分享出来。

              J 离线
              J 离线
              johnnybegood
              德高望重 劳动模范
              编写于 最后由 编辑
              #9

              @stxpnet 说:

              27B-smol

              HF搜不到, 给个下载链接哈

              S 1 条回复 最后回复
              0
              • wwcd2016W 离线
                wwcd2016W 离线
                wwcd2016
                编写于 最后由 terry 编辑
                #10

                我围观。表示int6 做了mtp头仍然会严重降低智商。出错概率大。编程别想了。
                我的需求就是,找到一个本地显卡,驱动hermes干活管理系统。驱动codex 自动完成复杂任务。
                但是3090 我表示放弃。
                最低入门4080s魔改32g
                舒适4090魔改48g
                ——
                或者各位大佬,有没有人能推翻lcz的论点:qwen3.6 27b是当前综合第一。
                我不要综合第一,我要能干活。不出错就好了。
                ——

                5 A 2 条回复 最后回复
                0
                • wwcd2016W wwcd2016

                  我围观。表示int6 做了mtp头仍然会严重降低智商。出错概率大。编程别想了。
                  我的需求就是,找到一个本地显卡,驱动hermes干活管理系统。驱动codex 自动完成复杂任务。
                  但是3090 我表示放弃。
                  最低入门4080s魔改32g
                  舒适4090魔改48g
                  ——
                  或者各位大佬,有没有人能推翻lcz的论点:qwen3.6 27b是当前综合第一。
                  我不要综合第一,我要能干活。不出错就好了。
                  ——

                  5 离线
                  5 离线
                  566656661
                  超凡大师
                  编写于 最后由 编辑
                  #11

                  @wwcd2016

                  額, Qwen 3.6 27B本來在Agentic 調用上就是第一啊

                  不然也不會出現這麽多基於它的微調

                  Gemma 4 Dense在Agentic調用上就不知道爲什麽比27B差 (當然這個很主觀)

                  1 条回复 最后回复
                  0
                  • wwcd2016W wwcd2016

                    我围观。表示int6 做了mtp头仍然会严重降低智商。出错概率大。编程别想了。
                    我的需求就是,找到一个本地显卡,驱动hermes干活管理系统。驱动codex 自动完成复杂任务。
                    但是3090 我表示放弃。
                    最低入门4080s魔改32g
                    舒适4090魔改48g
                    ——
                    或者各位大佬,有没有人能推翻lcz的论点:qwen3.6 27b是当前综合第一。
                    我不要综合第一,我要能干活。不出错就好了。
                    ——

                    A 离线
                    A 离线
                    applejuice
                    劳动模范 德高望重
                    编写于 最后由 编辑
                    #12

                    @wwcd2016 hermes 4.3 好像是为了调度工具 特意搞的
                    但是我3090 在llama 跑只有20t/s prefill 只有400

                    而且只是文字模型
                    所以没再尝试了

                    希望有大佬测试

                    1 条回复 最后回复
                    0
                    • J johnnybegood

                      @stxpnet 说:

                      27B-smol

                      HF搜不到, 给个下载链接哈

                      S 离线
                      S 离线
                      stxpnet
                      技术大牛 劳动模范
                      编写于 最后由 编辑
                      #13

                      @johnnybegood https://huggingface.co/ubergarm/Qwen3.6-27B-GGUF/tree/main

                      1 条回复 最后回复
                      0

                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                      有了你的建议,这篇帖子会更精彩哦 💗

                      注册 登录
                      回复
                      • 在新帖中回复
                      登录后回复
                      • 从旧到新
                      • 从新到旧
                      • 最多赞同


                      • 登录

                      • 没有帐号? 注册

                      • 第一个帖子
                        最后一个帖子
                      0
                      • 版块
                      • 最新
                      • 标签
                      • 热门
                      • 用户
                      • 群组