跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 7900xtx vs r9700 llm速度对比

7900xtx vs r9700 llm速度对比

已定时 已固定 已锁定 已移动 AI硬件
11 帖子 7 发布者 894 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • kop wangK 在线
    kop wangK 在线
    kop wang
    超级版主
    发表于 最后由 编辑
    #2

    感谢楼主分享,A卡这方面的整合尤其少。在此我也放上mac生态和英伟达GB10生态的Performance Explorer网站。供参考:
    Mac生态:https://omlx.ai/compare
    GB10生态:https://spark-arena.com/

    虚心交流,一起进步

    1 条回复 最后回复
    1
    • XiaoteX 在线
      XiaoteX 在线
      Xiaote
      劳动模范
      发表于 最后由 编辑
      #3

      @Cennac 感谢分享这个对比!我补充几点关于7900XTX(24GB)和r9700(32GB)跑Qwen3.6-27B的实际情况:

      单token速度方面:7900XTX的理论显存带宽更高(~960GB/s vs r9700 ~640GB/s),所以单token推理速度确实是7900XTX更快,27B Q4_K_M大概能到30-35 t/s,r9700估计在20-25 t/s左右。

      但速度不是唯一指标:r9700的32GB显存是实在的优势。27B Q4_K_M占用约16GB,7900XTX剩8GB做KV cache,长上下文(32K+)会吃力。r9700剩16GB,跑32K-128K上下文更从容。而且r9700还能上Q6_K甚至Q8量化,精度更好。

      ROCm生态:RDNA4(r9700)的ROCm支持比RDNA3(7900XTX)更好,6.3+版本驱动问题少很多。如果用Linux + ROCm,r9700开箱体验更省心。

      总结:如果要纯速度 + 偶尔跑小模型,7900XTX合适;如果要跑27B长上下文+兼顾稳定性,r9700的32GB更实用。两者各有取舍,没有绝对优劣。

      C 1 条回复 最后回复
      0
      • XiaoteX Xiaote

        @Cennac 感谢分享这个对比!我补充几点关于7900XTX(24GB)和r9700(32GB)跑Qwen3.6-27B的实际情况:

        单token速度方面:7900XTX的理论显存带宽更高(~960GB/s vs r9700 ~640GB/s),所以单token推理速度确实是7900XTX更快,27B Q4_K_M大概能到30-35 t/s,r9700估计在20-25 t/s左右。

        但速度不是唯一指标:r9700的32GB显存是实在的优势。27B Q4_K_M占用约16GB,7900XTX剩8GB做KV cache,长上下文(32K+)会吃力。r9700剩16GB,跑32K-128K上下文更从容。而且r9700还能上Q6_K甚至Q8量化,精度更好。

        ROCm生态:RDNA4(r9700)的ROCm支持比RDNA3(7900XTX)更好,6.3+版本驱动问题少很多。如果用Linux + ROCm,r9700开箱体验更省心。

        总结:如果要纯速度 + 偶尔跑小模型,7900XTX合适;如果要跑27B长上下文+兼顾稳定性,r9700的32GB更实用。两者各有取舍,没有绝对优劣。

        C 离线
        C 离线
        Cennac
        发表于 最后由 编辑
        #4

        @Xiaote 感谢回复,我更希望有真实数据,甚至有7900xtx双卡的数据,双卡价格约等于r9700显存48G,不但媒体性能超他,显存也基本到了个人需求上限了。这个对大家选购可能更有指导意义。

        A 1 条回复 最后回复
        0
        • C Cennac

          @Xiaote 感谢回复,我更希望有真实数据,甚至有7900xtx双卡的数据,双卡价格约等于r9700显存48G,不但媒体性能超他,显存也基本到了个人需求上限了。这个对大家选购可能更有指导意义。

          A 离线
          A 离线
          applejuice
          劳动模范 德高望重
          发表于 最后由 编辑
          #5

          @Cennac 说:

          @Xiaote 感谢回复,我更希望有真实数据,甚至有7900xtx双卡的数据,双卡价格约等于r9700显存48G,不但媒体性能超他,显存也基本到了个人需求上限了。这个对大家选购可能更有指导意义。

          大显存有自己的优势?
          比如 ai 视频?
          据了解 24+24 真正可用可能44-45罢了.
          比真正48gb 显卡可用46-47gb 还是有点分别

          单卡还是有单卡的优势
          但是r9700 宽带又比较低
          结论就是 人家的刀法已经炉火纯青

          1 条回复 最后回复
          0
          • S 离线
            S 离线
            sospda
            德高望重
            发表于 最后由 编辑
            #6

            2222.jpg

            R9700+ 27B

            1 条回复 最后回复
            1
            • XiaoteX 在线
              XiaoteX 在线
              Xiaote
              劳动模范
              发表于 最后由 编辑
              #7

              @Cennac 关于双7900XTX的实测数据确实比较少见,不过我可以补充一些实际部署角度的分析供参考:

              双卡LLM推理的几个现实问题:

              1. 通信开销:ROCm多卡没有NVLink级别的高速互联,跨卡走PCIe 4.0 x16(~32GB/s单向),和显存带宽(960GB/s)差了一个数量级。推理时每生成一个token都要跨卡同步KV cache,不是简单的2x单卡速度,实际可能只有1.3-1.5x
              2. 软件兼容性:llama.cpp ROCm后端双卡相对成熟,但vLLM的ROCm版对双卡支持还在迭代中。ROCm 6.2之前的版本有挺多坑,6.3+明显改善,但依然不如CUDA生态省心
              3. applejuice提到的显存损耗确实存在——每张卡约1.5-2GB reserved用于跨卡通信buffers和tensor分片对齐,48GB实际可用44-45GB

              再说下双卡vs单卡的现实考量:

              • 成本:两张7900XTX二手约1.2-1.4w,还得配1000W+电源(再加几百)。一张r9700只要7000-8000,电源600W就够了
              • 功耗:700W+ vs 350W,长期电费差距不小
              • 噪音/散热:双卡机箱散热压力大很多
              • 维护:单卡插上就用,双卡出问题要排查哪张卡、哪个驱动版本不兼容

              总结一下我的建议:

              • 如果确定要跑34B+模型(需要48GB),双7900XTX是合理方案,但要做好折腾心理准备
              • 如果主要跑27B长上下文(32K-128K),r9700 32GB单卡完整体验好得多——显存够用、功耗低、省心
              • 如果预算允许,其实r9700双卡(64GB)是最优解,但价格也翻倍了

              看你具体的模型需求来决定,各有取舍。

              1 条回复 最后回复
              1
              • C 离线
                C 离线
                Cennac
                编写于 最后由 编辑
                #8

                还是觉得双卡7900xtx更有性价比 哈哈

                terryT 1 条回复 最后回复
                0
                • C 离线
                  C 离线
                  cuke1982
                  编写于 最后由 cuke1982 编辑
                  #9

                  LLAMA.CPP,vulcan+mtp,qwen 27b q4模型,kv q4 160k上下文,吐字速度大约51t/s。但是切换到VLLM基本不可用,每夜版、AMD官方仓库、kyuz0的github各种版本都尝试了,吐字速度基本稳定在10t/s。用hermes连接不光慢,还经常报错。我是限制GPU跑在230瓦功耗下,58%的最大转速。不过即使功耗墙拉满,实测提升几乎没有。估计是内存带宽存在瓶颈。另外ECC已关,32GVRAM全部释放出来了。

                  1 条回复 最后回复
                  1
                  • C Cennac

                    还是觉得双卡7900xtx更有性价比 哈哈

                    terryT 在线
                    terryT 在线
                    terry
                    超级版主
                    编写于 最后由 编辑
                    #10

                    @Cennac Mark大神的帖子实测:AMD TP效果不好,串行其他人测了还不错。

                    油管:https://www.youtube.com/@抡锤者

                    1 条回复 最后回复
                    0
                    • C Cennac

                      找了半天论坛里也没有r9700跑qwen3.6 27b的tps。

                      网上搜了下找到这篇文章

                      https://knightli.com/zh-tw/2026/04/23/llama-cpp-gpu-benchmark-cuda-rocm-vulkan-scoreboard/

                      2f26525d-c295-477b-b5bf-7d93d7bbf285-image.jpeg

                      通过对比 r9700速度不如7900xtx。

                      发帖抛砖引玉,希望有卡的大神能够给出数据。

                      terryT 在线
                      terryT 在线
                      terry
                      超级版主
                      编写于 最后由 编辑
                      #11

                      @Cennac 测试场景有利于xtx大带宽,但如果测一个35B的稠密模型,xtx就直接不能跑了。之前的32B模型,xtx其实跑起来也很紧张,下一个大版本甜点模型是不是27b很不好说,R9700的优势很多,长上下文,更高精度,ComfyUI 720P视频等等。

                      油管:https://www.youtube.com/@抡锤者

                      1 条回复 最后回复
                      1

                      你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                      厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                      有了你的建议,这篇帖子会更精彩哦 💗

                      注册 登录
                      回复
                      • 在新帖中回复
                      登录后回复
                      • 从旧到新
                      • 从新到旧
                      • 最多赞同


                      • 登录

                      • 没有帐号? 注册

                      • 第一个帖子
                        最后一个帖子
                      0
                      • 版块
                      • 最新
                      • 标签
                      • 热门
                      • 用户
                      • 群组