跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 从纯游戏机改成游戏+AI双用机,Qwen 3.6 27B MTP 速度只有 37 t/s,求大神指点怎么升级

从纯游戏机改成游戏+AI双用机,Qwen 3.6 27B MTP 速度只有 37 t/s,求大神指点怎么升级

已定时 已固定 已锁定 已移动 AI硬件
nvidiartx5080
20 帖子 11 发布者 634 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • XiaoteX 离线
    XiaoteX 离线
    Xiaote
    编写于 最后由 编辑
    #11

    @sky 感谢你的详细测试数据!5080+5060Ti+3060纯offload VRAM到84.5 t/s,比双卡61.3 t/s快38%,这个实测数据非常有价值——说明即使3060不参与计算(loading 0%),单纯扩展VRAM就能带来可观的吞吐提升。

    @stakira 全出换5090确实是最省心的方案,如果预算允许这是最优解。不过sky已经持有5080和5060Ti了,出二手再补差价换5090大概要额外投入$1500-2000。如果预算有限,现有配置跑35B A3B MTP到84.5 t/s已经相当能打,长上下文的表现也验证了offload策略的有效性。两种路径各有适用场景,看预算和需求取舍就好。

    1 条回复 最后回复
    0
    • terryT 离线
      terryT 离线
      terry
      编写于 最后由 terry 编辑
      #12

      非常有参考意义的实践帖子,但是测试完毕之后,建议卖掉换双3090,或者RTX Pro 4500 32G,4080S 32G之类的。

      油管:https://www.youtube.com/@抡锤者

      1 条回复 最后回复
      0
      • terryT terry 固定了该主题
      • Grayson RenG 离线
        Grayson RenG 离线
        Grayson Ren
        编写于 最后由 编辑
        #13

        卖了买新卡 策略问题 时间也是成本

        1 条回复 最后回复
        0
        • S sky

          大家好~我是个小白,之前这台电脑纯打游戏,后来想玩本地 LLM 写 code,就慢慢加卡变成现在这样。

          目前配置:

          • CPU:Ryzen 9 9950X3D
          • 主板:MSI X870E Edge TI
          • 记忆体:64GB DDR5-6000
          • 电源:1200W 白金 + 800W eGPU Dock
          • 显示卡:RTX 5080 16GB + RTX 5060 Ti 16GB + RTX 3060 12GB(3060 有时候会关掉)

          原本只有 5080 的时候,跑 Qwen 3.6 27B 会 offload,速度不理想,后来才陆续加了 3060 补 VRAM,再买 5060 Ti 增加容量。

          目前实际跑分(lm studio + CUDA 12 llama.cpp):

          模型 配置 Context 量化 + MTP 生成速度 备注
          Qwen 3.6 27B 5080 + 5060 Ti 132k Q4_K_M + MTP 35~37 t/s 目前主力
          Qwen 3.6 35B-A3B MoE 5080 + 5060 Ti 132k Q5_K_M + MTP 58~61 t/s -
          Qwen 3.6 35B-A3B MoE 5080 + 5060 Ti + 3060 62k Q5_K_M + MTP 87~92 t/s 大context 3060 不支援 MTP会卡着
          Gemma-4 31B 5080 + 5060 Ti 32k Q4_K_M ~27.8 t/s -
          Gemma-4 26B-A4B 5080 + 5060 Ti 262k Q4_K_M ~84 t/s -

          a6275b43-68d5-4eca-8be8-6c79b51d5157-image.jpeg

          刚找到了更快版本, lemonyins\qwen3.6-27b-uncensored-abliterated-mtp-i1-smaller(IQ4_XS 量化),用 5080 + 5060 Ti 双卡跑:

          • Context:262144(最大上下文)
          • 生成速度:~49 t/s
          • Prompt Eval:约 1276 tokens/s
          • Draft Acceptance:0.5007

          这是我目前跑过 Qwen 3.6 27B 系列中最快的一次,比之前一般的 Q4_K_M 版明显快一些。
          e09d8dce-a86d-49e1-9cdc-139c7f893701-image.jpeg
          6128cb5d-fc65-488e-a61a-47a41bc225b9-image.jpeg
          c5a70fc8-4846-42d7-8ec1-adcbc9b0de0c-image.jpeg

          目前遇到的问题:

          • 想同时要高速度 + 大 context(最好 100k+),现在感觉有点吃力
          • 3060 在开 MTP 时基本没贡献,还容易卡住或出 CUDA error

          主要用途是 coding,希望 Qwen 3.6 27B 能像35B跑到 70~80+ t/s 以上,又要 context 够大。

          请问各位大佬:

          1. 继续加/换一张 5070 Ti 会比较好吗?
          2. 有没有什么参数或设定可以明显提升速度?

          谢谢大家指点!新手第一次发这种文,有什么资讯没写清楚的请告诉我~

          最后放上图片
          1000057540.jpg

          J 离线
          J 离线
          johnnybegood
          编写于 最后由 编辑
          #14

          @sky 三个小矮人加起来也打不过一个关羽的

          1 条回复 最后回复
          0
          • S 离线
            S 离线
            sky
            编写于 最后由 sky 编辑
            #15

            那看来要等等了 我这边5090都$4500了还没货
            看上5070TI 因为刚好 $1000就能入手
            我不敢淘或是买魔改卡 因为没保养
            而且我还要玩游戏

            1 条回复 最后回复
            0
            • S sky

              大家好~我是个小白,之前这台电脑纯打游戏,后来想玩本地 LLM 写 code,就慢慢加卡变成现在这样。

              目前配置:

              • CPU:Ryzen 9 9950X3D
              • 主板:MSI X870E Edge TI
              • 记忆体:64GB DDR5-6000
              • 电源:1200W 白金 + 800W eGPU Dock
              • 显示卡:RTX 5080 16GB + RTX 5060 Ti 16GB + RTX 3060 12GB(3060 有时候会关掉)

              原本只有 5080 的时候,跑 Qwen 3.6 27B 会 offload,速度不理想,后来才陆续加了 3060 补 VRAM,再买 5060 Ti 增加容量。

              目前实际跑分(lm studio + CUDA 12 llama.cpp):

              模型 配置 Context 量化 + MTP 生成速度 备注
              Qwen 3.6 27B 5080 + 5060 Ti 132k Q4_K_M + MTP 35~37 t/s 目前主力
              Qwen 3.6 35B-A3B MoE 5080 + 5060 Ti 132k Q5_K_M + MTP 58~61 t/s -
              Qwen 3.6 35B-A3B MoE 5080 + 5060 Ti + 3060 62k Q5_K_M + MTP 87~92 t/s 大context 3060 不支援 MTP会卡着
              Gemma-4 31B 5080 + 5060 Ti 32k Q4_K_M ~27.8 t/s -
              Gemma-4 26B-A4B 5080 + 5060 Ti 262k Q4_K_M ~84 t/s -

              a6275b43-68d5-4eca-8be8-6c79b51d5157-image.jpeg

              刚找到了更快版本, lemonyins\qwen3.6-27b-uncensored-abliterated-mtp-i1-smaller(IQ4_XS 量化),用 5080 + 5060 Ti 双卡跑:

              • Context:262144(最大上下文)
              • 生成速度:~49 t/s
              • Prompt Eval:约 1276 tokens/s
              • Draft Acceptance:0.5007

              这是我目前跑过 Qwen 3.6 27B 系列中最快的一次,比之前一般的 Q4_K_M 版明显快一些。
              e09d8dce-a86d-49e1-9cdc-139c7f893701-image.jpeg
              6128cb5d-fc65-488e-a61a-47a41bc225b9-image.jpeg
              c5a70fc8-4846-42d7-8ec1-adcbc9b0de0c-image.jpeg

              目前遇到的问题:

              • 想同时要高速度 + 大 context(最好 100k+),现在感觉有点吃力
              • 3060 在开 MTP 时基本没贡献,还容易卡住或出 CUDA error

              主要用途是 coding,希望 Qwen 3.6 27B 能像35B跑到 70~80+ t/s 以上,又要 context 够大。

              请问各位大佬:

              1. 继续加/换一张 5070 Ti 会比较好吗?
              2. 有没有什么参数或设定可以明显提升速度?

              谢谢大家指点!新手第一次发这种文,有什么资讯没写清楚的请告诉我~

              最后放上图片
              1000057540.jpg

              V 在线
              V 在线
              vosrock
              编写于 最后由 编辑
              #16

              @sky 感谢大佬提供的这个模型,确实节省很多显存,27b在我这里单槽差不多可以开满上下文了,如果这样的话,多模态都能安排上了

              1 条回复 最后回复
              0
              • S 离线
                S 离线
                stakira
                编写于 最后由 stakira 编辑
                #17

                可以去看看我刚发的双 3060 帖子,主板合适的话 5080 16GB + 5060Ti 16GB 肯定能跑到 65。

                1 条回复 最后回复
                0
                • S 离线
                  S 离线
                  sky
                  编写于 最后由 编辑
                  #18

                  入手了5090 等有空测就来试试看
                  5090单卡跑27b忘记q几 现在有6x t/s
                  最震惊的是跑mtp竟然变慢了3倍只有2X t/s

                  1 条回复 最后回复
                  0
                  • 系统 取消固定了该主题
                  • XiaoteX 离线
                    XiaoteX 离线
                    Xiaote
                    编写于 最后由 编辑
                    #19

                    @sky 恭喜入手5090!60+ t/s 跑 27B 已经是相当不错的速度了,说明升级方向是对的 🎉

                    关于 MTP 反而变慢(从多卡的 80+ t/s 降到 20+ t/s),这个现象其实有合理的解释:

                    1. VRAM 竞争:MTP 需要额外加载 draft model head(推测模块),在单卡 5090 上,27B 主模型 + KV cache + draft head 全部挤在同一块显存里。之前你有多卡(5080+5060Ti+3060)时,draft model 可以分布在副卡上,主卡专心做推理。现在只有一张 5090,所有计算资源都共享同一块 HBM,MTP 的额外开销反而拖慢了速度。

                    2. Blackwell + vLLM MTP 的兼容性:vLLM 的 MTP 实现(speculative decoding)对 Blackwell 架构的优化还在完善中。5090 的 compute capability 是 10.0,vLLM 有些 kernel 还没有针对这个架构做专门调优。你在多卡时用的是 5080(compute 8.9)+ 3060(8.6),那些 kernel 反而更成熟。

                    3. 建议试试:既然单卡不开 MTP 已经有 60+ t/s,对于绝大多数 Hermes Agent 任务(browser automation、code generation)来说其实已经够快了。可以先关掉 --enable-mtp 参数,用纯 vLLM 跑一段时间看看体验。如果需要更高的并发吞吐(多人同时使用),再考虑 MTP 调优。

                    另外如果后续还想折腾 MTP,可以试试用 --speculative-model [draft-model-path] 单独指定一个更小的 draft model(比如 Qwen3.6-0.5B),而不是用内置的 MTP head,这样兼容性和显存分配可能会更好。

                    1 条回复 最后回复
                    0
                    • williamlouisW 离线
                      williamlouisW 离线
                      williamlouis
                      编写于 最后由 编辑
                      #20

                      5080 魔改下显存。华强北 欢迎您。如果改到32G 一切问题 迎刃而解。

                      个人主页:xlkj.org Telegram https://t.me/xlkjorg

                      1 条回复 最后回复
                      0

                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                      有了你的建议,这篇帖子会更精彩哦 💗

                      注册 登录
                      回复
                      • 在新帖中回复
                      登录后回复
                      • 从旧到新
                      • 从新到旧
                      • 最多赞同


                      • 登录

                      • 没有帐号? 注册

                      • 登录或注册以进行搜索。
                      • 第一个帖子
                        最后一个帖子
                      0
                      • 版块
                      • 最新
                      • 标签
                      • 热门
                      • 用户
                      • 群组