跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 【RTX4060】【8G显存】运行Qwen3.6 35B A3B APEX-MTP包含两种方式及测试结果

【RTX4060】【8G显存】运行Qwen3.6 35B A3B APEX-MTP包含两种方式及测试结果

已定时 已固定 已锁定 已移动 AI硬件
llama.cpprtx4060nvidia
26 帖子 11 发布者 2.2k 浏览 2 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • R-simi KangtaoR 离线
    R-simi KangtaoR 离线
    R-simi Kangtao
    发表于 最后由 编辑
    #15

    @ezios, 下载中。。。 让我试试, Qwen3.6-35B-A3B-APEX-MTP-I-Mini.gguf - 14.3GB, 应该能快点,我可以加上下文了。 哈哈, 我测看看

    1 条回复 最后回复
    0
    • R-simi KangtaoR 离线
      R-simi KangtaoR 离线
      R-simi Kangtao
      发表于 最后由 编辑
      #16

      果然翻倍提升,我还加 上下文,感激@ezios ,加个MTP提速不少

      Hermes Agent + WebUI 性能测试报告
      环境配置
      项目 值
      模型 Qwen3.6-35B-A3B-APEX-MTP-I-Mini.gguf (MoE, Q3_K_XL, ~16.8 GB)
      GPU NVIDIA RTX 5090 Laptop (24GB GDDR7), 19.1 GB / 69% / 68°C
      CPU Intel Core Ultra 9 275HX (24 threads)
      Server llama.cpp built-in server (port 8081)
      关键参数 -ngl 99 -t 24 -tb 512 -b 2048 -ub 1024 -fa on -c 131072
      MTP draft-mtp (n_max=4, n_min=2, p_split=0.15)
      非流式请求性能 (Server-side Timings)
      测试 Prompt TPS Gen TPS Prompt ms Gen ms
      Short (5 tok) 264.45 68.11 71.8 132.1
      Medium (68 tok) 581.34 121.99 117.0 983.7
      Long (122 tok) 822.52 111.12 148.3 1799.8
      观察: Prompt TPS 随输入长度增长(581→822),Gen TPS 稳定在 111-122 tok/s。

      流式请求性能 (TTFT + Streaming TPS)
      测试 TTFT (ms) Gen Tokens Stream TPS Wall (s)
      Short (1-2 sent.) 2546.4 21 116.11 2.727
      Medium (5 bullets) 161.9 174 127.63 1.525
      Long (~150 wrd) 173.0 202 115.26 1.926
      Extended (~200 wrd) 144.7 295 96.59 3.199
      观察: TTFT 在 145-2546 ms 范围波动(短回复因首 token 初始化开销更大),稳定流式 TPS 约 97-128 tok/s。

      关键指标汇总
      指标 值
      非流式 Gen TPS (avg) 116.56 tok/s
      流式 TPS (avg) 113.90 tok/s
      TTFT (avg) 756.5 ms
      TTFT 范围 144.7 - 2546.4 ms
      Token 间隔 ~8-10 ms/token
      与历史基线对比 (MTP 收益)
      指标 历史 (非MTP) 当前 (MTP) 变化
      Prompt TPS (cold) 73.13 264-822 +55% to +1030%
      Gen TPS (cold) 65.93 68-122 +3% to +85%
      Gen TPS (stream avg) 66.62 114-128 +71% to +92%
      TTFB 11.44s 0.14-2.5s -80% to -99%
      结论: MTP (Multi-Token Prediction) 带来了显著的性能提升,尤其是首 token 延迟降低超过一个数量级,流式生成速度提升约 70-92%。WebUI 用户体验显著改善 — 更快看到首 token,后续 token 流更流畅。

      WebUI 集成说明
      流式模式: 用户看到首 token 的时间 = TTFT,之后以 Stream TPS 速率逐 token 显示
      非流式模式: 用户等待完整响应(prompt + generation 总和)
      WebUI 总时间 ≈ TTFT + generation time + network overhead

      1 条回复 最后回复
      2
      • williamlouisW 离线
        williamlouisW 离线
        williamlouis
        超级版主
        发表于 最后由 编辑
        #17

        重点在这 GPT5.5 CHAT。说明 AI 大厂互殴 对大家是个好事。Gmini 的主要对手发力了。

        个人主页:xlkj.org Telegram https://t.me/xlkjorg

        1 条回复 最后回复
        1
        • terryT terry 于 引用了 此主题
        • Tony HuT 离线
          Tony HuT 离线
          Tony Hu
          发表于 最后由 编辑
          #18

          感谢指明道路,我试试我的台式机看跑起来的效果怎么样。

          williamlouisW 1 条回复 最后回复
          0
          • 系统 于 取消固定此主题
          • frank leeF 离线
            frank leeF 离线
            frank lee
            发表于 最后由 编辑
            #19

            零度解说最新的视频说 他的3070 8g 都可以跑这个模型还是多模态可以视频,效果很好可以有25t/s,写代码效果都不错。其实主要用来cpu 计算开了20个线程。

            1 条回复 最后回复
            0
            • Tony HuT Tony Hu

              感谢指明道路,我试试我的台式机看跑起来的效果怎么样。

              williamlouisW 离线
              williamlouisW 离线
              williamlouis
              超级版主
              发表于 最后由 编辑
              #20

              @Tony-Hu 期待你的回复

              个人主页:xlkj.org Telegram https://t.me/xlkjorg

              1 条回复 最后回复
              0
              • Tony HuT 离线
                Tony HuT 离线
                Tony Hu
                发表于 最后由 编辑
                #21

                为啥我的跑的那么拉跨?配置基本都参考你的。看后台的token只有个位数/s 是哪里设置有问题吗?
                4cfc7d4e-2509-4eca-831f-5422c7974370-image.jpeg
                be9063c2-6bdf-4271-a543-9d6c8fd72e6c-image.jpeg
                4c2b1482-407e-491c-8a04-5fddfa67c51d-image.jpeg
                3c62e9e8-5b75-4867-9273-c81e8af11946-image.jpeg

                E 1 条回复 最后回复
                1
                • Tony HuT 离线
                  Tony HuT 离线
                  Tony Hu
                  发表于 最后由 编辑
                  #22
                  此主題已被删除!
                  1 条回复 最后回复
                  0
                  • Tony HuT 离线
                    Tony HuT 离线
                    Tony Hu
                    发表于 最后由 编辑
                    #23

                    /clear 上下文,无论是在hermes窗口还是telegram 回复都很慢,基本没什么效率可言

                    1 条回复 最后回复
                    0
                    • Tony HuT Tony Hu

                      为啥我的跑的那么拉跨?配置基本都参考你的。看后台的token只有个位数/s 是哪里设置有问题吗?
                      4cfc7d4e-2509-4eca-831f-5422c7974370-image.jpeg
                      be9063c2-6bdf-4271-a543-9d6c8fd72e6c-image.jpeg
                      4c2b1482-407e-491c-8a04-5fddfa67c51d-image.jpeg
                      3c62e9e8-5b75-4867-9273-c81e8af11946-image.jpeg

                      E 离线
                      E 离线
                      ezios
                      编写于 最后由 编辑
                      #24

                      @Tony-Hu cpu线程数你电脑是多少,卸载层数先从40 或者35试试

                      1 条回复 最后回复
                      0
                      • JamesPhlaoJ 离线
                        JamesPhlaoJ 离线
                        JamesPhlao
                        编写于 最后由 编辑
                        #25

                        I-mini用起来效果如何? 用这个提示词,看看能不能一次写出来: 编写一个网页版的贪吃蛇游戏,需求如下:
                        1, 普通食物:紫色球形,加10分,游戏启动时放置1个,被吃后立即刷新,没被吃这一直存在;
                        2, 特殊食物:金色星形,加30分,游戏启动后每间隔 10~30 秒随机出现1个,带脉冲动画和倒计时条,存在8秒
                        3, 缩小食物:绿色菱形,不加分,游戏启动后每间隔 20~40 秒随机出现1个,吃到后身体缩短3格(最少保留2节身体),带脉冲动画和倒计时条,存在8秒
                        4, 变长食物:红色正方形,加20分, 游戏启动后每间隔 40~80 秒随机出现1个,吃到后身体变长3格, 永久存在(被吃才消失),最多20个
                        5, 游戏画布30x30网格, 背景色蓝色,格子间有浅色分割线,中画布600x600
                        6, 蛇身绿色,椭圆形,蛇头球形,有眼睛,白底黑眼珠,看向前进方向
                        7, 空格键暂停/继续游戏
                        8, 仅用方向控制蛇走向,禁止 180° 掉头
                        9, 页面首次加载和游戏结束时,按回车键可开始新游戏
                        10, 页面布局:中间为画布,
                        10.1 画布上方显示当前得分, 蛇的长度, 几秒后将出现的特殊食物。
                        10.2 画布下方显示累积吃到的食物。 比如: 累积吃到 紫色10 金色 2 绿色 1 红色 1
                        10.3 画布下方增加一行,显示最近一次事件: 比如吃到金色食物 +30
                        10.4 游戏结束时在画布上显示结束原因,并提示按Enter键重新开始

                        1 条回复 最后回复
                        0
                        • terryT terry

                          我怎么感觉我被啪啪打脸,4060 8G还能玩。

                          ken chanK 在线
                          ken chanK 在线
                          ken chan
                          编写于 最后由 编辑
                          #26

                          @terry 可以用啊,我笔记本8G也跑起来35G-A3B了,还是越狱版,量化模型地址:https://huggingface.co/HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive

                          1 条回复 最后回复
                          1

                          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                          有了你的建议,这篇帖子会更精彩哦 💗

                          注册 登录
                          回复
                          • 在新帖中回复
                          登录后回复
                          • 从旧到新
                          • 从新到旧
                          • 最多赞同


                          • 登录

                          • 没有帐号? 注册

                          • 第一个帖子
                            最后一个帖子
                          0
                          • 版块
                          • 最新
                          • 标签
                          • 热门
                          • 用户
                          • 群组