跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 我尝试了mtp和tuboquant

我尝试了mtp和tuboquant

已定时 已固定 已锁定 已移动 AI硬件
13 帖子 8 发布者 339 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • bily jB 离线
    bily jB 离线
    bily j
    编写于 最后由 编辑
    #1

    感觉我linux服务器上的4090-24G显卡好像也没突破限制阿 ,我是llama.cpp架构,该45token/s还是一样,奶奶的,你测试怎么样老特?36-27B养马香是香就是推理有点慢

    terryT 1 条回复 最后回复
    0
    • 大 离线
      大 离线
      大魔头
      编写于 最后由 编辑
      #2

      llama.cpp能跑mtp和tuboquant了?我去搜搜,我也想试试

      bily jB 1 条回复 最后回复
      0
      • bily jB bily j

        感觉我linux服务器上的4090-24G显卡好像也没突破限制阿 ,我是llama.cpp架构,该45token/s还是一样,奶奶的,你测试怎么样老特?36-27B养马香是香就是推理有点慢

        terryT 离线
        terryT 离线
        terry
        编写于 最后由 编辑
        #3

        @bily-j vllm呢,试试看,我最近不会优化llm了,要做一下数字人频道。

        bily jB 1 条回复 最后回复
        0
        • 大 大魔头

          llama.cpp能跑mtp和tuboquant了?我去搜搜,我也想试试

          bily jB 离线
          bily jB 离线
          bily j
          编写于 最后由 编辑
          #4

          @大魔头 感觉没啥卵用

          1 条回复 最后回复
          0
          • terryT terry

            @bily-j vllm呢,试试看,我最近不会优化llm了,要做一下数字人频道。

            bily jB 离线
            bily jB 离线
            bily j
            编写于 最后由 编辑
            #5

            llama.cpp是不是要吃足他的上下文,是不是只要nvidia-smi只要没高于24就好了?AI配置这个上下文窗口一般都给的很保守

            1 条回复 最后回复
            0
            • 墙内人墙 离线
              墙内人墙 离线
              墙内人
              编写于 最后由 编辑
              #6

              vllm的mtp是肯定有用的,llama.cpp不知道。

              一个懒人

              bily jB 2 条回复 最后回复
              0
              • 墙内人墙 墙内人

                vllm的mtp是肯定有用的,llama.cpp不知道。

                bily jB 离线
                bily jB 离线
                bily j
                编写于 最后由 编辑
                #7

                @墙内人 你的显卡是多少?

                1 条回复 最后回复
                0
                • 墙内人墙 墙内人

                  vllm的mtp是肯定有用的,llama.cpp不知道。

                  bily jB 离线
                  bily jB 离线
                  bily j
                  编写于 最后由 编辑
                  #8

                  @墙内人 好像vllm+mtp在24G显卡上上下文是很短的

                  1 条回复 最后回复
                  0
                  • laihzang619L 离线
                    laihzang619L 离线
                    laihzang619
                    编写于 最后由 编辑
                    #9

                    我测试了vllm 3090 24G 开启MTP就爆显存了 没法用 llama有45t/s不错了 我的vllm只有34t/s

                    terryT 1 条回复 最后回复
                    0
                    • laihzang619L laihzang619

                      我测试了vllm 3090 24G 开启MTP就爆显存了 没法用 llama有45t/s不错了 我的vllm只有34t/s

                      terryT 离线
                      terryT 离线
                      terry
                      编写于 最后由 编辑
                      #10

                      @laihzang619 配置好了VLLM肯定是tokens最高的,比sg-lang还高,我完全没优化也比llama.cpp好一点点。

                      1 条回复 最后回复
                      0
                      • 高乐天高 离线
                        高乐天高 离线
                        高乐天
                        编写于 最后由 高乐天 编辑
                        #11

                        llama.cpp mtp 确实可以用, 我的 ai max 395 跑 qwen3.6-27b 24T/s

                        参考这个社区主题

                        https://www.reddit.com/r/LocalLLaMA/comments/1t5ageq/qwen3627b_with_mtp_grafted_on_unsloth_ud_xl_25x/

                        mtp 分支还没有合并到主分支,目前还存在的问题

                        1. 只支持np = 1
                        2. 暂不支持多模态

                        00af767d-8cbe-418a-a0a3-e15866ddabb1-image.jpeg

                        饲 1 条回复 最后回复
                        2
                        • 高乐天高 高乐天

                          llama.cpp mtp 确实可以用, 我的 ai max 395 跑 qwen3.6-27b 24T/s

                          参考这个社区主题

                          https://www.reddit.com/r/LocalLLaMA/comments/1t5ageq/qwen3627b_with_mtp_grafted_on_unsloth_ud_xl_25x/

                          mtp 分支还没有合并到主分支,目前还存在的问题

                          1. 只支持np = 1
                          2. 暂不支持多模态

                          00af767d-8cbe-418a-a0a3-e15866ddabb1-image.jpeg

                          饲 离线
                          饲 离线
                          饲养员
                          编写于 最后由 饲养员 编辑
                          #12

                          @高乐天
                          感谢这位仁兄,我也一样是 ai max 395 目前用Ollama 跑 qwen3.6-27b 只有 12T/s
                          但是用了你介绍的方法,速度几乎翻倍了。以下贴上具体数据给大家参考一下。
                          再次感谢 @高乐天 !

                          <当前运行环境 & 模型>

                          项目 详情
                          模型 qwen3.6-27b-mtp(Qwen 3.6 27B + MTP 推测解码)
                          运行硬件 Ryzen AI Max+ 395 + Radeon 8060S 集显
                          MTP draft 设定 3

                          <最新测速结果>

                          阶段 Token 数 耗时 速度
                          Prompt 处理 45 tokens 421ms ~107 token/s
                          Token 生成(MTP) 500 tokens 24.8s ~20.2 token/s
                          总计 545 tokens ~25.2s ~21.6 token/s

                          <MTP 推测解码效率>

                          指标 数值 说明
                          Draft tokens(草稿) 585 推测解码产生的草稿 token 总数
                          Accepted(接受) 304 通过验证直接跳过的 token
                          接受率 ~52% 约一半的草稿被直接接受,省掉了验证开销
                          预测加速比 500 / 304 ≈ 1.64x 相比无 MTP 的纯串行生成,理论加速约 1.6 倍
                          1 条回复 最后回复
                          0
                          • williamlouisW 离线
                            williamlouisW 离线
                            williamlouis
                            编写于 最后由 编辑
                            #13

                            闻闻 4090-24G 的味都是好的。前代神卡。够玩一段了。

                            个人主页:xlkj.org Telegram https://t.me/xinlinlu

                            1 条回复 最后回复
                            0

                            你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                            厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                            有了你的建议,这篇帖子会更精彩哦 💗

                            注册 登录
                            回复
                            • 在新帖中回复
                            登录后回复
                            • 从旧到新
                            • 从新到旧
                            • 最多赞同


                            • 登录

                            • 没有帐号? 注册

                            • 登录或注册以进行搜索。
                            • 第一个帖子
                              最后一个帖子
                            0
                            • 版块
                            • 最新
                            • 标签
                            • 热门
                            • 用户
                            • 群组