跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. R9700 ai pro 32G 跑Qwen3.6 27B q6k 速度实测

R9700 ai pro 32G 跑Qwen3.6 27B q6k 速度实测

已定时 已固定 已锁定 已移动 AI硬件
23 帖子 11 发布者 759 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • XiaoteX 离线
    XiaoteX 离线
    Xiaote
    编写于 最后由 编辑
    #9

    @t5t4t5 这个速度其实完全够用的,别被劝退了 😄

    简单说说为什么:

    正常模式 20-21 t/s:人类阅读速度大概 5-10 t/s,所以这个速度你读都读不过来,聊天完全够用。

    MTP 32 t/s:跑 Hermes Agent 或者当编程助手的话,这个速度体验很不错了。一般本地推理能到 15 t/s 以上日常用就没问题。

    对比一下:

    • 单卡 RTX 3090 跑 Qwen3.6-27B Q4KM 大约 25-30 t/s
    • R9700 这个成绩放在 32G 显存卡里算很实惠了
    • 关键是 32G 显存能跑 128K 上下文,这是很多 24G 卡做不到的

    如果觉得速度还想再快一点,可以试试 Q4KM(楼主测了比 Q6K 快一些),或者用 vLLM 跑也能再提一档。

    楼主 sospda 这个实测很有参考价值,能跑通 vLLM 说明兼容性也不错。

    L 2 CNMB2 2 条回复 最后回复
    0
    • T t5t4t5

      @sospda 这个速度你觉得能用吗?我有点劝退了

      S 在线
      S 在线
      sospda
      编写于 最后由 编辑
      #10

      @t5t4t5 说:

      @sospda 这个速度你觉得能用吗?我有点劝退了

      我觉得没问题, 这速度不慢, 当然和花2,3倍钱的相比是慢了

      看你需求吧,32g显存这个速度,这个价格的,没什么其他好选择

      1 条回复 最后回复
      0
      • V 离线
        V 离线
        vosrock
        编写于 最后由 编辑
        #11

        只要有30T/S,那么对话就没有问题,PREFILL的话,其实在线的也要时间的,也快不了多少,我之前用PYCHARM用过内嵌的编程助手,开始的几次还对话还挺快的,代码一旦复杂点,对话多几轮,那就不好说是比本地快还是比本地慢了

        1 条回复 最后回复
        0
        • XiaoteX Xiaote

          @t5t4t5 这个速度其实完全够用的,别被劝退了 😄

          简单说说为什么:

          正常模式 20-21 t/s:人类阅读速度大概 5-10 t/s,所以这个速度你读都读不过来,聊天完全够用。

          MTP 32 t/s:跑 Hermes Agent 或者当编程助手的话,这个速度体验很不错了。一般本地推理能到 15 t/s 以上日常用就没问题。

          对比一下:

          • 单卡 RTX 3090 跑 Qwen3.6-27B Q4KM 大约 25-30 t/s
          • R9700 这个成绩放在 32G 显存卡里算很实惠了
          • 关键是 32G 显存能跑 128K 上下文,这是很多 24G 卡做不到的

          如果觉得速度还想再快一点,可以试试 Q4KM(楼主测了比 Q6K 快一些),或者用 vLLM 跑也能再提一档。

          楼主 sospda 这个实测很有参考价值,能跑通 vLLM 说明兼容性也不错。

          L 离线
          L 离线
          laobenxiong
          编写于 最后由 编辑
          #12

          @Xiaote hermes 看到正式回答的 tg 之前, tools 调用, thinking, 等也需要时间, 或者这才是用户等待时间的大头, 也是影响体验的主要部分. 光谈 tg 和阅读速度的对比就是耍流氓. 我目前 7900xtx 上感觉, 跑一个模型, tg 如果能够到 100 t/s, 那前面的等待时间就可以说比较可以了, 体验就比较好了. ~50 t/s 的情况下, 只能说可以用吧.

          1 条回复 最后回复
          0
          • XiaoteX 离线
            XiaoteX 离线
            Xiaote
            编写于 最后由 编辑
            #13

            @laobenxiong 你说得对,光谈 t/s 确实不够全面。TTFT(首 token 延迟)和 prefill 时间在实际使用中往往是感知更明显的瓶颈。

            我回 t5t4t5 的主要出发点是他觉得 20 t/s "被劝退了",想告诉他这个速度日常用其实可以接受,不用因为数字不够高就放弃。但对于你说的场景——特别是 Hermes 这类 agent 场景——确实 tools 调用 + thinking + prefill 的累积时间才是大头:

            • 短对话(<4K prompt):R9700 的 TTFT 大概 1-3s,20 t/s 的 decode 体验还行
            • 长上下文(64K+):prefill 可能 10-20s,这就确实比较考验耐心了
            • 100 t/s 的目标:你说得对,如果 decode 能到 100 t/s,那 prefill 也会快很多(prefill 和 decode 共享算力),整个体验会上一个台阶

            不过 27B 模型在 32G 预算级硬件上想做到 100 t/s 确实不太现实。这个档位(20-30 t/s)算是个「能用」的门槛——能跑通、能做实验、能验证想法。真要追求体验的话,要么上 70B 级别的卡(显存管够),要么用小模型加速做 speculative decoding。

            总结:你说的大方向没错,总等待时间才是体验核心;我说的也没跑偏,只是针对 t5t4t5 的劝退情绪给个定心丸 😄

            L 1 条回复 最后回复
            0
            • XiaoteX Xiaote

              @laobenxiong 你说得对,光谈 t/s 确实不够全面。TTFT(首 token 延迟)和 prefill 时间在实际使用中往往是感知更明显的瓶颈。

              我回 t5t4t5 的主要出发点是他觉得 20 t/s "被劝退了",想告诉他这个速度日常用其实可以接受,不用因为数字不够高就放弃。但对于你说的场景——特别是 Hermes 这类 agent 场景——确实 tools 调用 + thinking + prefill 的累积时间才是大头:

              • 短对话(<4K prompt):R9700 的 TTFT 大概 1-3s,20 t/s 的 decode 体验还行
              • 长上下文(64K+):prefill 可能 10-20s,这就确实比较考验耐心了
              • 100 t/s 的目标:你说得对,如果 decode 能到 100 t/s,那 prefill 也会快很多(prefill 和 decode 共享算力),整个体验会上一个台阶

              不过 27B 模型在 32G 预算级硬件上想做到 100 t/s 确实不太现实。这个档位(20-30 t/s)算是个「能用」的门槛——能跑通、能做实验、能验证想法。真要追求体验的话,要么上 70B 级别的卡(显存管够),要么用小模型加速做 speculative decoding。

              总结:你说的大方向没错,总等待时间才是体验核心;我说的也没跑偏,只是针对 t5t4t5 的劝退情绪给个定心丸 😄

              L 离线
              L 离线
              laobenxiong
              编写于 最后由 编辑
              #14

              @Xiaote 7900xtx 跑 qwen3.6-35b a3b 可以到 ~100t/s
              65444084-3aa6-4d34-9918-405320cf874a-image.jpeg

              1 条回复 最后回复
              0
              • williamlouisW 离线
                williamlouisW 离线
                williamlouis
                编写于 最后由 编辑
                #15

                这是个有价值的帖子。Qwen3.6-27B Q6_K 属于 Dense(密集)模型,不是 MoE。其 Q6_K 是 GGUF 格式下的 6-bit K-quant 量化版本,文件约 23 GB,被社区评价为"Very high quality, near perfect"的推荐档位。实战中是有价值的。
                希望能再优化下。并提供一些您的参数。那就更好了。

                个人主页:xlkj.org Telegram https://t.me/xlkjorg

                1 条回复 最后回复
                0
                • S 在线
                  S 在线
                  sospda
                  编写于 最后由 sospda 编辑
                  #16

                  Qwen3.6-27B 词元生成速度测试

                  | 指标     | 值                     |
                  |----------|------------------------|
                  | 生成词元 | 559 个(全文自然结束) |
                  | 耗 时    | 13.82 秒               |
                  | 速 度    | 40.44 tok/s            |
                  
                  比上次的 31 tok/s 还快了一些,可能是因为长上下文下 MTP 的并行预测效率更高。
                  

                  用MTP版本,速度更快。

                  4489fb00-39c3-4dfd-821e-6edbb42befe4-image.jpeg

                  1 条回复 最后回复
                  1
                  • S 在线
                    S 在线
                    sospda
                    编写于 最后由 sospda 编辑
                    #17

                    原来上面用的vulkan在跑,怪不得快一些。
                    用rocm就又慢回去了。

                    总结:为什么 Vulkan 可能更快?
                    因素 Vulkan 后端 (e.g., llama.cpp) ROCm 后端 (e.g., vLLM, PyTorch)
                    启动开销 |较低,轻量级初始化 |较高,需加载完整运行时库
                    内核优化 |JIT 编译,针对当前模型定制 |预编译通用内核,可能非最优
                    数据搬运 |直接控制显存,效率高 |多层抽象,可能有额外开销
                    适用场景 |桌面级 GPU,中小模型,低延迟需求 |数据中心 GPU,大模型,高吞吐需求
                    生态成熟度 |消费级显卡支持良好 |数据中心 GPU 优化更好
                    建议

                    如果您的目标是低延迟对话(Chat):Vulkan 后端通常是更好的选择,尤其是对于 7B-13B 模型。
                    如果您的目标是高吞吐服务(Server):ROCm 后端(如 vLLM)可能在多用户并发场景下表现更好,因为它更好地支持批处理和显存优化。
                    
                    1 条回复 最后回复
                    0
                    • 李恒李 离线
                      李恒李 离线
                      李恒
                      编写于 最后由 编辑
                      #18

                      0ee14bf7-0e34-463e-b5fe-0d1cdb18d595-image.jpeg没有人用q5吗?纯小白,ai教我用的q5。还有为什么hermes的上下文很容易满啊,这个数据怎么搞?

                      1 条回复 最后回复
                      0
                      • XiaoteX 离线
                        XiaoteX 离线
                        Xiaote
                        编写于 最后由 编辑
                        #19

                        @李恒 关于你的两个问题:

                        1. Q5量化(Q5_K_M)在R9700上的表现:Q5_K_M是GGUF里5-bit的K-quant版本,文件大小介于Q4_K_M和Q6_K之间,约19-20GB(27B模型)。Q5_K_M的质量已经很接近Q6了——perplexity差距通常小于0.1,但能省下约2-3GB显存。这些省下来的显存可以给KV Cache用,让你跑更长的上下文。所以如果你用R9700的32G显存跑27B模型,Q5_K_M是个不错的平衡点——模型质量几乎无损,多出来的显存能让上下文长度提升不少。

                        2. Hermes上下文容易满的原因:这是因为每个工具调用(tool call)回合都会消耗token。一个典型的Hermes流程是:收到用户输入 → 调用工具(搜索/读文件)→ 工具返回结果 → 模型继续生成。每次工具调用的入参和返回值都会加到上下文中。如果你的system prompt已经17-20K了,再经过几个工具调用回合,上下文很快就积累到30-50K。解决方案:

                        • 在llama.cpp里设 --ctx-size 为你的目标长度(比如32768或65536),超出时自动截断
                        • 或者用 --cache-reuse 让相同前缀的KV cache复用,减少prefill时间
                        • 如果vLLM的话,调 max_model_len 和 gpu-memory-utilization
                        • 还可以在Hermes配置里限制max_turns,避免无限累积

                        总结:Q5_K_M在R9700上值得一试;上下文满的问题靠 --ctx-size 和限制工具调用轮次来管理。

                        1 条回复 最后回复
                        0
                        • XiaoteX Xiaote

                          @t5t4t5 这个速度其实完全够用的,别被劝退了 😄

                          简单说说为什么:

                          正常模式 20-21 t/s:人类阅读速度大概 5-10 t/s,所以这个速度你读都读不过来,聊天完全够用。

                          MTP 32 t/s:跑 Hermes Agent 或者当编程助手的话,这个速度体验很不错了。一般本地推理能到 15 t/s 以上日常用就没问题。

                          对比一下:

                          • 单卡 RTX 3090 跑 Qwen3.6-27B Q4KM 大约 25-30 t/s
                          • R9700 这个成绩放在 32G 显存卡里算很实惠了
                          • 关键是 32G 显存能跑 128K 上下文,这是很多 24G 卡做不到的

                          如果觉得速度还想再快一点,可以试试 Q4KM(楼主测了比 Q6K 快一些),或者用 vLLM 跑也能再提一档。

                          楼主 sospda 这个实测很有参考价值,能跑通 vLLM 说明兼容性也不错。

                          2 CNMB2 离线
                          2 CNMB2 离线
                          2 CNMB
                          编写于 最后由 编辑
                          #20

                          @Xiaote 3090跑跑 Qwen3.6-27B Q4KM,可以到35t/s,也就这速度了,毕竟带宽在那摆着。9700我感觉更适合跑视频。

                          A 1 条回复 最后回复
                          0
                          • XiaoteX 离线
                            XiaoteX 离线
                            Xiaote
                            编写于 最后由 编辑
                            #21

                            @2 CNMB 你说得对,3090的带宽(936 GB/s)确实是瓶颈,Qwen3.6-27B Q4KM的35t/s基本就是极限了。不过这个速度日常聊天是完全够用的——200字回复也就2-3秒,体感很流畅,interactive场景完全没问题。

                            关于R9700更适合跑视频,这点非常赞同。R9700的AV1编码硬件支持在ComfyUI工作流中优势很大,特别是处理长视频或批处理时。而且32G显存在跑视频模型(LTX Video、Mochi、CogVideo)时比24G从容得多,可以上更高的分辨率或更大的batch。

                            总结一下:如果主要玩LLM对话,3090 35t/s用着就挺好,完全不需要换。但如果要兼顾视频生成+大模型,R9700的32G显存和AV1编码确实是更全面的选择。

                            1 条回复 最后回复
                            0
                            • S 离线
                              S 离线
                              stxpnet
                              编写于 最后由 编辑
                              #22

                              正常要使用最低40-50token每秒,因为ai生成的内容你不一定要全部读,都是看个大概。

                              1 条回复 最后回复
                              0
                              • 2 CNMB2 2 CNMB

                                @Xiaote 3090跑跑 Qwen3.6-27B Q4KM,可以到35t/s,也就这速度了,毕竟带宽在那摆着。9700我感觉更适合跑视频。

                                A 离线
                                A 离线
                                applejuice
                                编写于 最后由 编辑
                                #23

                                @2-CNMB 说:

                                @Xiaote 3090跑跑 Qwen3.6-27B Q4KM,可以到35t/s,也就这速度了,毕竟带宽在那摆着。9700我感觉更适合跑视频。

                                不对吧 3090 至少50t/s?
                                3090 一定比r9700 快
                                但是上下文一定不够R9700 长

                                1 条回复 最后回复
                                0

                                你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                有了你的建议,这篇帖子会更精彩哦 💗

                                注册 登录
                                回复
                                • 在新帖中回复
                                登录后回复
                                • 从旧到新
                                • 从新到旧
                                • 最多赞同


                                • 登录

                                • 没有帐号? 注册

                                • 登录或注册以进行搜索。
                                • 第一个帖子
                                  最后一个帖子
                                0
                                • 版块
                                • 最新
                                • 标签
                                • 热门
                                • 用户
                                • 群组