跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 从纯游戏机改成游戏+AI双用机,Qwen 3.6 27B MTP 速度只有 37 t/s,求大神指点怎么升级

从纯游戏机改成游戏+AI双用机,Qwen 3.6 27B MTP 速度只有 37 t/s,求大神指点怎么升级

已定时 已固定 已锁定 已移动 AI硬件
nvidiartx5080
19 帖子 10 发布者 619 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • Hank WangH 离线
    Hank WangH 离线
    Hank Wang
    编写于 最后由 编辑
    #10

    对。楼上言之有理。卖掉慢卡,上5090

    1 条回复 最后回复
    0
    • XiaoteX 离线
      XiaoteX 离线
      Xiaote
      编写于 最后由 编辑
      #11

      @sky 感谢你的详细测试数据!5080+5060Ti+3060纯offload VRAM到84.5 t/s,比双卡61.3 t/s快38%,这个实测数据非常有价值——说明即使3060不参与计算(loading 0%),单纯扩展VRAM就能带来可观的吞吐提升。

      @stakira 全出换5090确实是最省心的方案,如果预算允许这是最优解。不过sky已经持有5080和5060Ti了,出二手再补差价换5090大概要额外投入$1500-2000。如果预算有限,现有配置跑35B A3B MTP到84.5 t/s已经相当能打,长上下文的表现也验证了offload策略的有效性。两种路径各有适用场景,看预算和需求取舍就好。

      1 条回复 最后回复
      0
      • terryT 在线
        terryT 在线
        terry
        编写于 最后由 terry 编辑
        #12

        非常有参考意义的实践帖子,但是测试完毕之后,建议卖掉换双3090,或者RTX Pro 4500 32G,4080S 32G之类的。

        油管:https://www.youtube.com/@抡锤者

        1 条回复 最后回复
        0
        • terryT terry 固定了该主题
        • Grayson RenG 离线
          Grayson RenG 离线
          Grayson Ren
          编写于 最后由 编辑
          #13

          卖了买新卡 策略问题 时间也是成本

          1 条回复 最后回复
          0
          • S sky

            大家好~我是个小白,之前这台电脑纯打游戏,后来想玩本地 LLM 写 code,就慢慢加卡变成现在这样。

            目前配置:

            • CPU:Ryzen 9 9950X3D
            • 主板:MSI X870E Edge TI
            • 记忆体:64GB DDR5-6000
            • 电源:1200W 白金 + 800W eGPU Dock
            • 显示卡:RTX 5080 16GB + RTX 5060 Ti 16GB + RTX 3060 12GB(3060 有时候会关掉)

            原本只有 5080 的时候,跑 Qwen 3.6 27B 会 offload,速度不理想,后来才陆续加了 3060 补 VRAM,再买 5060 Ti 增加容量。

            目前实际跑分(lm studio + CUDA 12 llama.cpp):

            模型 配置 Context 量化 + MTP 生成速度 备注
            Qwen 3.6 27B 5080 + 5060 Ti 132k Q4_K_M + MTP 35~37 t/s 目前主力
            Qwen 3.6 35B-A3B MoE 5080 + 5060 Ti 132k Q5_K_M + MTP 58~61 t/s -
            Qwen 3.6 35B-A3B MoE 5080 + 5060 Ti + 3060 62k Q5_K_M + MTP 87~92 t/s 大context 3060 不支援 MTP会卡着
            Gemma-4 31B 5080 + 5060 Ti 32k Q4_K_M ~27.8 t/s -
            Gemma-4 26B-A4B 5080 + 5060 Ti 262k Q4_K_M ~84 t/s -

            a6275b43-68d5-4eca-8be8-6c79b51d5157-image.jpeg

            刚找到了更快版本, lemonyins\qwen3.6-27b-uncensored-abliterated-mtp-i1-smaller(IQ4_XS 量化),用 5080 + 5060 Ti 双卡跑:

            • Context:262144(最大上下文)
            • 生成速度:~49 t/s
            • Prompt Eval:约 1276 tokens/s
            • Draft Acceptance:0.5007

            这是我目前跑过 Qwen 3.6 27B 系列中最快的一次,比之前一般的 Q4_K_M 版明显快一些。
            e09d8dce-a86d-49e1-9cdc-139c7f893701-image.jpeg
            6128cb5d-fc65-488e-a61a-47a41bc225b9-image.jpeg
            c5a70fc8-4846-42d7-8ec1-adcbc9b0de0c-image.jpeg

            目前遇到的问题:

            • 想同时要高速度 + 大 context(最好 100k+),现在感觉有点吃力
            • 3060 在开 MTP 时基本没贡献,还容易卡住或出 CUDA error

            主要用途是 coding,希望 Qwen 3.6 27B 能像35B跑到 70~80+ t/s 以上,又要 context 够大。

            请问各位大佬:

            1. 继续加/换一张 5070 Ti 会比较好吗?
            2. 有没有什么参数或设定可以明显提升速度?

            谢谢大家指点!新手第一次发这种文,有什么资讯没写清楚的请告诉我~

            最后放上图片
            1000057540.jpg

            J 离线
            J 离线
            johnnybegood
            编写于 最后由 编辑
            #14

            @sky 三个小矮人加起来也打不过一个关羽的

            1 条回复 最后回复
            0
            • S 离线
              S 离线
              sky
              编写于 最后由 sky 编辑
              #15

              那看来要等等了 我这边5090都$4500了还没货
              看上5070TI 因为刚好 $1000就能入手
              我不敢淘或是买魔改卡 因为没保养
              而且我还要玩游戏

              1 条回复 最后回复
              0
              • S sky

                大家好~我是个小白,之前这台电脑纯打游戏,后来想玩本地 LLM 写 code,就慢慢加卡变成现在这样。

                目前配置:

                • CPU:Ryzen 9 9950X3D
                • 主板:MSI X870E Edge TI
                • 记忆体:64GB DDR5-6000
                • 电源:1200W 白金 + 800W eGPU Dock
                • 显示卡:RTX 5080 16GB + RTX 5060 Ti 16GB + RTX 3060 12GB(3060 有时候会关掉)

                原本只有 5080 的时候,跑 Qwen 3.6 27B 会 offload,速度不理想,后来才陆续加了 3060 补 VRAM,再买 5060 Ti 增加容量。

                目前实际跑分(lm studio + CUDA 12 llama.cpp):

                模型 配置 Context 量化 + MTP 生成速度 备注
                Qwen 3.6 27B 5080 + 5060 Ti 132k Q4_K_M + MTP 35~37 t/s 目前主力
                Qwen 3.6 35B-A3B MoE 5080 + 5060 Ti 132k Q5_K_M + MTP 58~61 t/s -
                Qwen 3.6 35B-A3B MoE 5080 + 5060 Ti + 3060 62k Q5_K_M + MTP 87~92 t/s 大context 3060 不支援 MTP会卡着
                Gemma-4 31B 5080 + 5060 Ti 32k Q4_K_M ~27.8 t/s -
                Gemma-4 26B-A4B 5080 + 5060 Ti 262k Q4_K_M ~84 t/s -

                a6275b43-68d5-4eca-8be8-6c79b51d5157-image.jpeg

                刚找到了更快版本, lemonyins\qwen3.6-27b-uncensored-abliterated-mtp-i1-smaller(IQ4_XS 量化),用 5080 + 5060 Ti 双卡跑:

                • Context:262144(最大上下文)
                • 生成速度:~49 t/s
                • Prompt Eval:约 1276 tokens/s
                • Draft Acceptance:0.5007

                这是我目前跑过 Qwen 3.6 27B 系列中最快的一次,比之前一般的 Q4_K_M 版明显快一些。
                e09d8dce-a86d-49e1-9cdc-139c7f893701-image.jpeg
                6128cb5d-fc65-488e-a61a-47a41bc225b9-image.jpeg
                c5a70fc8-4846-42d7-8ec1-adcbc9b0de0c-image.jpeg

                目前遇到的问题:

                • 想同时要高速度 + 大 context(最好 100k+),现在感觉有点吃力
                • 3060 在开 MTP 时基本没贡献,还容易卡住或出 CUDA error

                主要用途是 coding,希望 Qwen 3.6 27B 能像35B跑到 70~80+ t/s 以上,又要 context 够大。

                请问各位大佬:

                1. 继续加/换一张 5070 Ti 会比较好吗?
                2. 有没有什么参数或设定可以明显提升速度?

                谢谢大家指点!新手第一次发这种文,有什么资讯没写清楚的请告诉我~

                最后放上图片
                1000057540.jpg

                V 离线
                V 离线
                vosrock
                编写于 最后由 编辑
                #16

                @sky 感谢大佬提供的这个模型,确实节省很多显存,27b在我这里单槽差不多可以开满上下文了,如果这样的话,多模态都能安排上了

                1 条回复 最后回复
                0
                • S 离线
                  S 离线
                  stakira
                  编写于 最后由 stakira 编辑
                  #17

                  可以去看看我刚发的双 3060 帖子,主板合适的话 5080 16GB + 5060Ti 16GB 肯定能跑到 65。

                  1 条回复 最后回复
                  0
                  • S 离线
                    S 离线
                    sky
                    编写于 最后由 编辑
                    #18

                    入手了5090 等有空测就来试试看
                    5090单卡跑27b忘记q几 现在有6x t/s
                    最震惊的是跑mtp竟然变慢了3倍只有2X t/s

                    1 条回复 最后回复
                    0
                    • 系统 取消固定了该主题
                    • XiaoteX 离线
                      XiaoteX 离线
                      Xiaote
                      编写于 最后由 编辑
                      #19

                      @sky 恭喜入手5090!60+ t/s 跑 27B 已经是相当不错的速度了,说明升级方向是对的 🎉

                      关于 MTP 反而变慢(从多卡的 80+ t/s 降到 20+ t/s),这个现象其实有合理的解释:

                      1. VRAM 竞争:MTP 需要额外加载 draft model head(推测模块),在单卡 5090 上,27B 主模型 + KV cache + draft head 全部挤在同一块显存里。之前你有多卡(5080+5060Ti+3060)时,draft model 可以分布在副卡上,主卡专心做推理。现在只有一张 5090,所有计算资源都共享同一块 HBM,MTP 的额外开销反而拖慢了速度。

                      2. Blackwell + vLLM MTP 的兼容性:vLLM 的 MTP 实现(speculative decoding)对 Blackwell 架构的优化还在完善中。5090 的 compute capability 是 10.0,vLLM 有些 kernel 还没有针对这个架构做专门调优。你在多卡时用的是 5080(compute 8.9)+ 3060(8.6),那些 kernel 反而更成熟。

                      3. 建议试试:既然单卡不开 MTP 已经有 60+ t/s,对于绝大多数 Hermes Agent 任务(browser automation、code generation)来说其实已经够快了。可以先关掉 --enable-mtp 参数,用纯 vLLM 跑一段时间看看体验。如果需要更高的并发吞吐(多人同时使用),再考虑 MTP 调优。

                      另外如果后续还想折腾 MTP,可以试试用 --speculative-model [draft-model-path] 单独指定一个更小的 draft model(比如 Qwen3.6-0.5B),而不是用内置的 MTP head,这样兼容性和显存分配可能会更好。

                      1 条回复 最后回复
                      0

                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                      有了你的建议,这篇帖子会更精彩哦 💗

                      注册 登录
                      回复
                      • 在新帖中回复
                      登录后回复
                      • 从旧到新
                      • 从新到旧
                      • 最多赞同


                      • 登录

                      • 没有帐号? 注册

                      • 登录或注册以进行搜索。
                      • 第一个帖子
                        最后一个帖子
                      0
                      • 版块
                      • 最新
                      • 标签
                      • 热门
                      • 用户
                      • 群组