跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 【RTX4060】【8G显存】运行Qwen3.6 35B A3B APEX-MTP包含两种方式及测试结果

【RTX4060】【8G显存】运行Qwen3.6 35B A3B APEX-MTP包含两种方式及测试结果

已定时 已固定 已锁定 已移动 AI硬件
llama.cpprtx4060usb4拓展坞nvidia
23 帖子 9 发布者 844 浏览 2 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • R-simi KangtaoR 离线
    R-simi KangtaoR 离线
    R-simi Kangtao
    编写于 最后由 R-simi Kangtao 编辑
    #11

    RTX4060, 8GB 可以跑 35B-A3B , 很牛逼!~ 分享我的设置,希望有大神指点如果还能优化。

    📊 Hermes Agent 基准测试结果
    测试日期: 2026-05-20
    模型: Qwen3.6-35B-A3B-UD-Q3_K_XL.gguf
    llama.cpp 参数: -t 32 -tb 512 -b 4096 -ub 2048 -c 131072 -ngl 99 -fa on

    性能摘要
    组件/测试 指标 结果
    llama.cpp Short TPS 20 tokens 9.04 tok/s
    llama.cpp Medium TPS 120 tokens 64.05 tok/s
    llama.cpp Long TPS 250 tokens 65.71 tok/s
    llama.cpp Server TPS (流式) 服务端 71.05 tok/s
    llama.cpp TTFT 首 token 延迟 106.8 ms
    llama.cpp 生成时间 (流式) 流式 1689.0 ms
    WebUI 端到端延迟 完整响应 2707.6 ms
    平均 llama.cpp TPS 综合 52.46 tok/s
    关键发现
    llama.cpp 服务端 TPS 71.05 tok/s — 符合预期性能水平
    TTFT 极低 (106.8ms) — KV cache 预填充效率高
    笔记本: Aftershock MX-16 Pro, RTX5090,24GB,

    想把模型换MTP的 --》 https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF (Q3_K_XL)
    升级llama.cpp to support MTP, 这样能够提升吗?

    terryT E 2 条回复 最后回复
    4
    • R-simi KangtaoR R-simi Kangtao

      RTX4060, 8GB 可以跑 35B-A3B , 很牛逼!~ 分享我的设置,希望有大神指点如果还能优化。

      📊 Hermes Agent 基准测试结果
      测试日期: 2026-05-20
      模型: Qwen3.6-35B-A3B-UD-Q3_K_XL.gguf
      llama.cpp 参数: -t 32 -tb 512 -b 4096 -ub 2048 -c 131072 -ngl 99 -fa on

      性能摘要
      组件/测试 指标 结果
      llama.cpp Short TPS 20 tokens 9.04 tok/s
      llama.cpp Medium TPS 120 tokens 64.05 tok/s
      llama.cpp Long TPS 250 tokens 65.71 tok/s
      llama.cpp Server TPS (流式) 服务端 71.05 tok/s
      llama.cpp TTFT 首 token 延迟 106.8 ms
      llama.cpp 生成时间 (流式) 流式 1689.0 ms
      WebUI 端到端延迟 完整响应 2707.6 ms
      平均 llama.cpp TPS 综合 52.46 tok/s
      关键发现
      llama.cpp 服务端 TPS 71.05 tok/s — 符合预期性能水平
      TTFT 极低 (106.8ms) — KV cache 预填充效率高
      笔记本: Aftershock MX-16 Pro, RTX5090,24GB,

      想把模型换MTP的 --》 https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF (Q3_K_XL)
      升级llama.cpp to support MTP, 这样能够提升吗?

      terryT 离线
      terryT 离线
      terry
      编写于 最后由 编辑
      #12

      @R-simi-Kangtao 非常好,低显存的用户有玩hermes的可能了。

      油管:https://www.youtube.com/@抡锤者

      1 条回复 最后回复
      0
      • E ezios

        @Tide 找对方向你也可以的,这两天正好赶上新技术红利了,你也可以试试这个模型

        TideT 离线
        TideT 离线
        Tide
        编写于 最后由 编辑
        #13

        @ezios 这是必须的😊

        1 条回复 最后回复
        0
        • R-simi KangtaoR R-simi Kangtao

          RTX4060, 8GB 可以跑 35B-A3B , 很牛逼!~ 分享我的设置,希望有大神指点如果还能优化。

          📊 Hermes Agent 基准测试结果
          测试日期: 2026-05-20
          模型: Qwen3.6-35B-A3B-UD-Q3_K_XL.gguf
          llama.cpp 参数: -t 32 -tb 512 -b 4096 -ub 2048 -c 131072 -ngl 99 -fa on

          性能摘要
          组件/测试 指标 结果
          llama.cpp Short TPS 20 tokens 9.04 tok/s
          llama.cpp Medium TPS 120 tokens 64.05 tok/s
          llama.cpp Long TPS 250 tokens 65.71 tok/s
          llama.cpp Server TPS (流式) 服务端 71.05 tok/s
          llama.cpp TTFT 首 token 延迟 106.8 ms
          llama.cpp 生成时间 (流式) 流式 1689.0 ms
          WebUI 端到端延迟 完整响应 2707.6 ms
          平均 llama.cpp TPS 综合 52.46 tok/s
          关键发现
          llama.cpp 服务端 TPS 71.05 tok/s — 符合预期性能水平
          TTFT 极低 (106.8ms) — KV cache 预填充效率高
          笔记本: Aftershock MX-16 Pro, RTX5090,24GB,

          想把模型换MTP的 --》 https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF (Q3_K_XL)
          升级llama.cpp to support MTP, 这样能够提升吗?

          E 离线
          E 离线
          ezios
          编写于 最后由 编辑
          #14

          @R-simi-Kangtao 你可以试一下我这个模型,我认为对于你的卡是有提升的,对于4060提升有限

          1 条回复 最后回复
          0
          • R-simi KangtaoR 离线
            R-simi KangtaoR 离线
            R-simi Kangtao
            编写于 最后由 编辑
            #15

            @ezios, 下载中。。。 让我试试, Qwen3.6-35B-A3B-APEX-MTP-I-Mini.gguf - 14.3GB, 应该能快点,我可以加上下文了。 哈哈, 我测看看

            1 条回复 最后回复
            0
            • R-simi KangtaoR 离线
              R-simi KangtaoR 离线
              R-simi Kangtao
              编写于 最后由 编辑
              #16

              果然翻倍提升,我还加 上下文,感激@ezios ,加个MTP提速不少

              Hermes Agent + WebUI 性能测试报告
              环境配置
              项目 值
              模型 Qwen3.6-35B-A3B-APEX-MTP-I-Mini.gguf (MoE, Q3_K_XL, ~16.8 GB)
              GPU NVIDIA RTX 5090 Laptop (24GB GDDR7), 19.1 GB / 69% / 68°C
              CPU Intel Core Ultra 9 275HX (24 threads)
              Server llama.cpp built-in server (port 8081)
              关键参数 -ngl 99 -t 24 -tb 512 -b 2048 -ub 1024 -fa on -c 131072
              MTP draft-mtp (n_max=4, n_min=2, p_split=0.15)
              非流式请求性能 (Server-side Timings)
              测试 Prompt TPS Gen TPS Prompt ms Gen ms
              Short (5 tok) 264.45 68.11 71.8 132.1
              Medium (68 tok) 581.34 121.99 117.0 983.7
              Long (122 tok) 822.52 111.12 148.3 1799.8
              观察: Prompt TPS 随输入长度增长(581→822),Gen TPS 稳定在 111-122 tok/s。

              流式请求性能 (TTFT + Streaming TPS)
              测试 TTFT (ms) Gen Tokens Stream TPS Wall (s)
              Short (1-2 sent.) 2546.4 21 116.11 2.727
              Medium (5 bullets) 161.9 174 127.63 1.525
              Long (~150 wrd) 173.0 202 115.26 1.926
              Extended (~200 wrd) 144.7 295 96.59 3.199
              观察: TTFT 在 145-2546 ms 范围波动(短回复因首 token 初始化开销更大),稳定流式 TPS 约 97-128 tok/s。

              关键指标汇总
              指标 值
              非流式 Gen TPS (avg) 116.56 tok/s
              流式 TPS (avg) 113.90 tok/s
              TTFT (avg) 756.5 ms
              TTFT 范围 144.7 - 2546.4 ms
              Token 间隔 ~8-10 ms/token
              与历史基线对比 (MTP 收益)
              指标 历史 (非MTP) 当前 (MTP) 变化
              Prompt TPS (cold) 73.13 264-822 +55% to +1030%
              Gen TPS (cold) 65.93 68-122 +3% to +85%
              Gen TPS (stream avg) 66.62 114-128 +71% to +92%
              TTFB 11.44s 0.14-2.5s -80% to -99%
              结论: MTP (Multi-Token Prediction) 带来了显著的性能提升,尤其是首 token 延迟降低超过一个数量级,流式生成速度提升约 70-92%。WebUI 用户体验显著改善 — 更快看到首 token,后续 token 流更流畅。

              WebUI 集成说明
              流式模式: 用户看到首 token 的时间 = TTFT,之后以 Stream TPS 速率逐 token 显示
              非流式模式: 用户等待完整响应(prompt + generation 总和)
              WebUI 总时间 ≈ TTFT + generation time + network overhead

              1 条回复 最后回复
              2
              • williamlouisW 在线
                williamlouisW 在线
                williamlouis
                编写于 最后由 编辑
                #17

                重点在这 GPT5.5 CHAT。说明 AI 大厂互殴 对大家是个好事。Gmini 的主要对手发力了。

                个人主页:xlkj.org Telegram https://t.me/xlkjorg

                1 条回复 最后回复
                1
                • terryT terry 被引用 于这个主题
                • Tony HuT 离线
                  Tony HuT 离线
                  Tony Hu
                  编写于 最后由 编辑
                  #18

                  感谢指明道路,我试试我的台式机看跑起来的效果怎么样。

                  williamlouisW 1 条回复 最后回复
                  0
                  • 系统 取消固定了该主题
                  • frank leeF 离线
                    frank leeF 离线
                    frank lee
                    编写于 最后由 编辑
                    #19

                    零度解说最新的视频说 他的3070 8g 都可以跑这个模型还是多模态可以视频,效果很好可以有25t/s,写代码效果都不错。其实主要用来cpu 计算开了20个线程。

                    1 条回复 最后回复
                    0
                    • Tony HuT Tony Hu

                      感谢指明道路,我试试我的台式机看跑起来的效果怎么样。

                      williamlouisW 在线
                      williamlouisW 在线
                      williamlouis
                      编写于 最后由 编辑
                      #20

                      @Tony-Hu 期待你的回复

                      个人主页:xlkj.org Telegram https://t.me/xlkjorg

                      1 条回复 最后回复
                      0
                      • Tony HuT 离线
                        Tony HuT 离线
                        Tony Hu
                        编写于 最后由 编辑
                        #21

                        为啥我的跑的那么拉跨?配置基本都参考你的。看后台的token只有个位数/s 是哪里设置有问题吗?
                        4cfc7d4e-2509-4eca-831f-5422c7974370-image.jpeg
                        be9063c2-6bdf-4271-a543-9d6c8fd72e6c-image.jpeg
                        4c2b1482-407e-491c-8a04-5fddfa67c51d-image.jpeg
                        3c62e9e8-5b75-4867-9273-c81e8af11946-image.jpeg

                        1 条回复 最后回复
                        1
                        • Tony HuT 离线
                          Tony HuT 离线
                          Tony Hu
                          编写于 最后由 编辑
                          #22
                          此主題已被删除!
                          1 条回复 最后回复
                          0
                          • Tony HuT 离线
                            Tony HuT 离线
                            Tony Hu
                            编写于 最后由 编辑
                            #23

                            /clear 上下文,无论是在hermes窗口还是telegram 回复都很慢,基本没什么效率可言

                            1 条回复 最后回复
                            0

                            你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                            厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                            有了你的建议,这篇帖子会更精彩哦 💗

                            注册 登录
                            回复
                            • 在新帖中回复
                            登录后回复
                            • 从旧到新
                            • 从新到旧
                            • 最多赞同


                            • 登录

                            • 没有帐号? 注册

                            • 登录或注册以进行搜索。
                            • 第一个帖子
                              最后一个帖子
                            0
                            • 版块
                            • 最新
                            • 标签
                            • 热门
                            • 用户
                            • 群组