跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 我是64G内存 5070t 16Gi显卡 Windows10,Qwen3.6-27B MTP优化问题

我是64G内存 5070t 16Gi显卡 Windows10,Qwen3.6-27B MTP优化问题

已定时 已固定 已锁定 已移动 AI硬件
9 帖子 6 发布者 155 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • K 离线
    K 离线
    ktswang
    编写于 最后由 编辑
    #1

    现在用的是Unsloth Studio 用的Qwen3.6-27B MTP Q4KM模型,速度 12.8t/s ,请问再不升级硬件的情况下,怎么可以进一步速度,可以到50t/s的速度吗,Qwen3.6-35B-A3B可以到这个速度。。。有没有大神说一下,感激不尽😰

    1 条回复 最后回复
    0
    • kop wangK 离线
      kop wangK 离线
      kop wang
      编写于 最后由 编辑
      #2

      用的什么框架?llama.cpp吗?需要发一下截图和启动参数。
      你用的是Q4,首先明确的是必然爆显存了。

      虚心交流,一起进步

      1 条回复 最后回复
      0
      • K 离线
        K 离线
        ktswang
        编写于 最后由 编辑
        #3

        a51a1236-0615-4f2f-8e8f-69238608b066-image.jpeg

        CPU不知道为什么这么高,每次都100%

        kop wangK 1 条回复 最后回复
        1
        • XiaoteX 离线
          XiaoteX 离线
          Xiaote
          编写于 最后由 编辑
          #4

          @ktswang 我来如实说一下你的情况:

          50 t/s 对 27B MTP 来说不太现实。 5070T 16GB的显存带宽约672GB/s,Qwen3.6-27B Q4_K_M模型大小约16GB,理论最大速度也就40 t/s出头,加上MTP投机采样本身的extra计算开销,实际能到30 t/s就已经是极限了。你现在12.8 t/s说明有offloading到系统内存了(从CPU 100%也能看出来),这很正常,16GB跑27B必然要offload。

          你说的35B-A3B更快是正常的——A3B架构本质上是MoE路由,每次只激活约3B参数,计算量远小于27B dense模型。这不是你设置的问题,是模型架构决定的。

          在不升级硬件的条件下,可以试试这几步:

          1. 换Q3_K_M或IQ4量化——16GB跑27B用Q4有点紧张,降一档量化可以减少offloading
          2. 减少batch size和context length——如果不需要长上下文,设到8192或4096能省不少KV cache
          3. 用llama.cpp而不是Unsloth Studio——llama.cpp对NVIDIA卡优化更激进,特别是--tensor-split和--no-mmap参数
          4. 如果你的5070T支持FP8(RTX 50系列支持),可以试试FP8 kv cache

          如果目标是50 t/s+的生成速度,换35B-A3B(约10GB)或者27B的Q2_K量化才是实际可行的路径。5070T上35B-A3B跑50 t/s确实是能达到的。

          1 条回复 最后回复
          0
          • K ktswang

            a51a1236-0615-4f2f-8e8f-69238608b066-image.jpeg

            CPU不知道为什么这么高,每次都100%

            kop wangK 离线
            kop wangK 离线
            kop wang
            编写于 最后由 编辑
            #5

            @ktswang 主要是需要你的启动参数来看看有没有优化的角度。不过从估算的角度来看,性能可以挖掘的潜力不大。27B和35B-A3B的decode性能确实是1比3左右的关系。

            核心矛盾还是16GB显存不足以容纳模型。导致过多的内存交换。

            5090 32GB跑qwen3.6-27B Q4_K_M,不开MTP的前提下,decode性能也就在70+,是不是心里平衡了一点。

            虚心交流,一起进步

            K 1 条回复 最后回复
            0
            • kop wangK kop wang

              @ktswang 主要是需要你的启动参数来看看有没有优化的角度。不过从估算的角度来看,性能可以挖掘的潜力不大。27B和35B-A3B的decode性能确实是1比3左右的关系。

              核心矛盾还是16GB显存不足以容纳模型。导致过多的内存交换。

              5090 32GB跑qwen3.6-27B Q4_K_M,不开MTP的前提下,decode性能也就在70+,是不是心里平衡了一点。

              K 离线
              K 离线
              ktswang
              编写于 最后由 编辑
              #6

              @kop-wang 谢谢您的解答,我是个小白。用的是Unsloth Studio默认启动参数,没调过。我在想用Linux系统或者用Windows的调优参数,是不是会更快。我想试试,因为人家说稠密模型会更专业一些。

              1 条回复 最后回复
              0
              • terryT 离线
                terryT 离线
                terry
                编写于 最后由 编辑
                #7

                你的问题是16G显存放不下27b模型,没什么优化空间,买个24G以上的显卡可以解决。

                油管:https://www.youtube.com/@抡锤者

                1 条回复 最后回复
                1
                • AresROCA 离线
                  AresROCA 离线
                  AresROC
                  编写于 最后由 编辑
                  #8

                  换个Qwen3.6 A3B MOE 模型,还是可以用的

                  1 条回复 最后回复
                  0
                  • kos orK 离线
                    kos orK 离线
                    kos or
                    编写于 最后由 编辑
                    #9

                    5070 Ti 記憶體頻寬有896 GB/s 速度沒這麼慢。除非KV Cache 被塞到DRAM去了。

                    1 条回复 最后回复
                    0

                    你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                    厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                    有了你的建议,这篇帖子会更精彩哦 💗

                    注册 登录
                    回复
                    • 在新帖中回复
                    登录后回复
                    • 从旧到新
                    • 从新到旧
                    • 最多赞同


                    • 登录

                    • 没有帐号? 注册

                    • 登录或注册以进行搜索。
                    • 第一个帖子
                      最后一个帖子
                    0
                    • 版块
                    • 最新
                    • 标签
                    • 热门
                    • 用户
                    • 群组