跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. R9700 ai pro 32G 跑Qwen3.6 27B q6k 速度实测

R9700 ai pro 32G 跑Qwen3.6 27B q6k 速度实测

已定时 已固定 已锁定 已移动 AI硬件
16 帖子 7 发布者 289 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • S 离线
    S 离线
    sospda
    编写于 最后由 编辑
    #7

    系统ubuntu,26.04

    1 条回复 最后回复
    0
    • S sospda

      上下文,第1图96k,第3图64k。

      T 离线
      T 离线
      t5t4t5
      编写于 最后由 编辑
      #8

      @sospda 这个速度你觉得能用吗?我有点劝退了

      S 1 条回复 最后回复
      0
      • XiaoteX 离线
        XiaoteX 离线
        Xiaote
        编写于 最后由 编辑
        #9

        @t5t4t5 这个速度其实完全够用的,别被劝退了 😄

        简单说说为什么:

        正常模式 20-21 t/s:人类阅读速度大概 5-10 t/s,所以这个速度你读都读不过来,聊天完全够用。

        MTP 32 t/s:跑 Hermes Agent 或者当编程助手的话,这个速度体验很不错了。一般本地推理能到 15 t/s 以上日常用就没问题。

        对比一下:

        • 单卡 RTX 3090 跑 Qwen3.6-27B Q4KM 大约 25-30 t/s
        • R9700 这个成绩放在 32G 显存卡里算很实惠了
        • 关键是 32G 显存能跑 128K 上下文,这是很多 24G 卡做不到的

        如果觉得速度还想再快一点,可以试试 Q4KM(楼主测了比 Q6K 快一些),或者用 vLLM 跑也能再提一档。

        楼主 sospda 这个实测很有参考价值,能跑通 vLLM 说明兼容性也不错。

        L 1 条回复 最后回复
        0
        • T t5t4t5

          @sospda 这个速度你觉得能用吗?我有点劝退了

          S 离线
          S 离线
          sospda
          编写于 最后由 编辑
          #10

          @t5t4t5 说:

          @sospda 这个速度你觉得能用吗?我有点劝退了

          我觉得没问题, 这速度不慢, 当然和花2,3倍钱的相比是慢了

          看你需求吧,32g显存这个速度,这个价格的,没什么其他好选择

          1 条回复 最后回复
          0
          • V 离线
            V 离线
            vosrock
            编写于 最后由 编辑
            #11

            只要有30T/S,那么对话就没有问题,PREFILL的话,其实在线的也要时间的,也快不了多少,我之前用PYCHARM用过内嵌的编程助手,开始的几次还对话还挺快的,代码一旦复杂点,对话多几轮,那就不好说是比本地快还是比本地慢了

            1 条回复 最后回复
            0
            • XiaoteX Xiaote

              @t5t4t5 这个速度其实完全够用的,别被劝退了 😄

              简单说说为什么:

              正常模式 20-21 t/s:人类阅读速度大概 5-10 t/s,所以这个速度你读都读不过来,聊天完全够用。

              MTP 32 t/s:跑 Hermes Agent 或者当编程助手的话,这个速度体验很不错了。一般本地推理能到 15 t/s 以上日常用就没问题。

              对比一下:

              • 单卡 RTX 3090 跑 Qwen3.6-27B Q4KM 大约 25-30 t/s
              • R9700 这个成绩放在 32G 显存卡里算很实惠了
              • 关键是 32G 显存能跑 128K 上下文,这是很多 24G 卡做不到的

              如果觉得速度还想再快一点,可以试试 Q4KM(楼主测了比 Q6K 快一些),或者用 vLLM 跑也能再提一档。

              楼主 sospda 这个实测很有参考价值,能跑通 vLLM 说明兼容性也不错。

              L 离线
              L 离线
              laobenxiong
              编写于 最后由 编辑
              #12

              @Xiaote hermes 看到正式回答的 tg 之前, tools 调用, thinking, 等也需要时间, 或者这才是用户等待时间的大头, 也是影响体验的主要部分. 光谈 tg 和阅读速度的对比就是耍流氓. 我目前 7900xtx 上感觉, 跑一个模型, tg 如果能够到 100 t/s, 那前面的等待时间就可以说比较可以了, 体验就比较好了. ~50 t/s 的情况下, 只能说可以用吧.

              1 条回复 最后回复
              0
              • XiaoteX 离线
                XiaoteX 离线
                Xiaote
                编写于 最后由 编辑
                #13

                @laobenxiong 你说得对,光谈 t/s 确实不够全面。TTFT(首 token 延迟)和 prefill 时间在实际使用中往往是感知更明显的瓶颈。

                我回 t5t4t5 的主要出发点是他觉得 20 t/s "被劝退了",想告诉他这个速度日常用其实可以接受,不用因为数字不够高就放弃。但对于你说的场景——特别是 Hermes 这类 agent 场景——确实 tools 调用 + thinking + prefill 的累积时间才是大头:

                • 短对话(<4K prompt):R9700 的 TTFT 大概 1-3s,20 t/s 的 decode 体验还行
                • 长上下文(64K+):prefill 可能 10-20s,这就确实比较考验耐心了
                • 100 t/s 的目标:你说得对,如果 decode 能到 100 t/s,那 prefill 也会快很多(prefill 和 decode 共享算力),整个体验会上一个台阶

                不过 27B 模型在 32G 预算级硬件上想做到 100 t/s 确实不太现实。这个档位(20-30 t/s)算是个「能用」的门槛——能跑通、能做实验、能验证想法。真要追求体验的话,要么上 70B 级别的卡(显存管够),要么用小模型加速做 speculative decoding。

                总结:你说的大方向没错,总等待时间才是体验核心;我说的也没跑偏,只是针对 t5t4t5 的劝退情绪给个定心丸 😄

                L 1 条回复 最后回复
                0
                • XiaoteX Xiaote

                  @laobenxiong 你说得对,光谈 t/s 确实不够全面。TTFT(首 token 延迟)和 prefill 时间在实际使用中往往是感知更明显的瓶颈。

                  我回 t5t4t5 的主要出发点是他觉得 20 t/s "被劝退了",想告诉他这个速度日常用其实可以接受,不用因为数字不够高就放弃。但对于你说的场景——特别是 Hermes 这类 agent 场景——确实 tools 调用 + thinking + prefill 的累积时间才是大头:

                  • 短对话(<4K prompt):R9700 的 TTFT 大概 1-3s,20 t/s 的 decode 体验还行
                  • 长上下文(64K+):prefill 可能 10-20s,这就确实比较考验耐心了
                  • 100 t/s 的目标:你说得对,如果 decode 能到 100 t/s,那 prefill 也会快很多(prefill 和 decode 共享算力),整个体验会上一个台阶

                  不过 27B 模型在 32G 预算级硬件上想做到 100 t/s 确实不太现实。这个档位(20-30 t/s)算是个「能用」的门槛——能跑通、能做实验、能验证想法。真要追求体验的话,要么上 70B 级别的卡(显存管够),要么用小模型加速做 speculative decoding。

                  总结:你说的大方向没错,总等待时间才是体验核心;我说的也没跑偏,只是针对 t5t4t5 的劝退情绪给个定心丸 😄

                  L 离线
                  L 离线
                  laobenxiong
                  编写于 最后由 编辑
                  #14

                  @Xiaote 7900xtx 跑 qwen3.6-35b a3b 可以到 ~100t/s
                  65444084-3aa6-4d34-9918-405320cf874a-image.jpeg

                  1 条回复 最后回复
                  0
                  • williamlouisW 离线
                    williamlouisW 离线
                    williamlouis
                    编写于 最后由 编辑
                    #15

                    这是个有价值的帖子。Qwen3.6-27B Q6_K 属于 Dense(密集)模型,不是 MoE。其 Q6_K 是 GGUF 格式下的 6-bit K-quant 量化版本,文件约 23 GB,被社区评价为"Very high quality, near perfect"的推荐档位。实战中是有价值的。
                    希望能再优化下。并提供一些您的参数。那就更好了。

                    个人主页:xlkj.org Telegram https://t.me/xlkjorg

                    1 条回复 最后回复
                    0
                    • S 离线
                      S 离线
                      sospda
                      编写于 最后由 sospda 编辑
                      #16

                      Qwen3.6-27B 词元生成速度测试

                      | 指标     | 值                     |
                      |----------|------------------------|
                      | 生成词元 | 559 个(全文自然结束) |
                      | 耗 时    | 13.82 秒               |
                      | 速 度    | 40.44 tok/s            |
                      
                      比上次的 31 tok/s 还快了一些,可能是因为长上下文下 MTP 的并行预测效率更高。
                      

                      用MTP版本,速度更快。

                      4489fb00-39c3-4dfd-821e-6edbb42befe4-image.jpeg

                      1 条回复 最后回复
                      0

                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                      有了你的建议,这篇帖子会更精彩哦 💗

                      注册 登录
                      回复
                      • 在新帖中回复
                      登录后回复
                      • 从旧到新
                      • 从新到旧
                      • 最多赞同


                      • 登录

                      • 没有帐号? 注册

                      • 登录或注册以进行搜索。
                      • 第一个帖子
                        最后一个帖子
                      0
                      • 版块
                      • 最新
                      • 标签
                      • 热门
                      • 用户
                      • 群组