跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 分享:4090/48G, R9700/32G, AI Max 395 (8060S) 跑大语言模型的实测数据

分享:4090/48G, R9700/32G, AI Max 395 (8060S) 跑大语言模型的实测数据

已定时 已固定 已锁定 已移动 LLM讨论区
13 帖子 8 发布者 486 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • FredF 离线
    FredF 离线
    Fred
    编写于 最后由 Fred 编辑
    #1

    我的装备看这个帖子:
    https://lcz.me/topic/117/小小秀一下我的ai-rig/12

    这个帖子主要是分享一下用这套装备能怎么跑大模型(LLM),有哪些组合,能大概跑出来什么样的效果等等。

    GPU

    • RTX 4090 48G (独立显卡)
    • AMD Radeon AI PRO R9700 32G (独立显卡)
    • AMD Radeon 8060S Graphics 128G(AI MAX 395的集成显卡)

    各自的特点:

    1. AI Max 395:价格14000RMB左右,集成显卡代号8060S,共享内存128G,内存最大,能通吃许多大模型, 但算力最低,内存带宽260G左右,也是最低,所以跑大模型的速度最慢;
    2. 4090 48G:价格30000RMB左右,最贵,最快,显存带宽1TB左右,生态最好,vLLM可以跑得飞起,但48G显存吃不下超大模型,但跑27B模型或者30B模型,可以把上下文放256K,非常爽;
    3. R9700 32G:价格11000RMB左右,32G显存,速度尚可,性价比高,但算力和显存带宽(660G左右),都不如4090,因此速度介于8060S集成显卡和4090之间,能跑27B模型,选择Q4量化模型,上下文也能到256K。

    玩法

    分3类:

    1. 小模型单卡玩法,这就不说了,就是用一个卡跑一个模型;
    2. 中等模型分2卡玩法,例如Qwen3.5-122B模型,本来可以直接跑在AI MAX 395的集成显卡上,但我嫌他性能太差,然而4090和R9700两个卡,任何一个的显存又不够单跑这个模型,但2个卡加起来80G的VRAM就够了,因此可以将它用llama.cpp的-ts参数,分层到2块卡上跑,效果惊人地快;
    3. 超大模型分卡分3卡玩法,例如MiniMax M2.7这种,下载下来哪怕是Q4的量化版本,都有120多GB,连AI MAX 395的128GB都放不下(需要留内存给系统和kv cache),这种情况,可以把同一个模型分成3部分,让4090承担大头,AI MAX395承担中头,R9700承担小头。这样的性能会被AI MAX 395的集成显卡拖后腿,但是能跑,而且如果不用长上下文的Agent,仅用来聊天(利用超大知识库),性能也可以接受(吐字不慢)。

    后面我就把这几种方法跑出来的效果给大家汇报一下。

    测试工具

    llama-benchy: 我用这个工具,它是通过openai的兼容api端点做压测,可以对任何推理引擎做压测(我是vLLM和llama.cpp),它能反映最终用户(例如Hermes Agent)能真正感受到的速度。
    GitHub - eugr/llama-benchy: llama-benchy - llama-bench style benchmarking tool for all backends

    压测结果

    模型 参数量 量化方式 权重大小 推理框架 GPU PROMPT PREFILL (pp8192) TOKEN GENERATION (tg512)
    MiniMax2.7 230B-A10B UD-IQ4_XS 102GB llama.cpp (-ts) 4090+R9700+8060S 781.68 27.74
    Qwen3.5-122B-A10B 122B-A10B UD-Q4_K_XL 73GB llama.cpp 8060S 352.36 20.96
    Qwen3.5-122B-A10B 122B-A10B UD-Q4_K_XL 73GB llama.cpp (-ts) 4090+R9700 2234.51 53.63
    Qwen3.6-35B-A3B 35B-A3B Q5_K_XL 25G llama.cpp 4090 7978.24 162.10
    Qwen3.6-35B-A3B 35B-A3B Q5_K_XL 25G llama.cpp R9700 2880.76 79.05
    Qwen3.6-35B-A3B 35B-A3B Q5_K_XL 25G llama.cpp 8060S 946.44 50.77
    Qwen3.6-27B 27B AWQ-6Bit 26GB vLLM 4090 2557.59 115.47 (with MTP)
    Qwen3.6-27B 27B UD-Q6_K_XL 25GB llama.cpp 4090 2402.65 33.88
    Qwen3.6-27B 27B UD-Q4_K_XL 17GB llama.cpp R9700 914.31 26.56
    Qwen3.6-27B 27B UD-Q4_K_XL 17GB llama.cpp 8060S 281.44 11.83

    结论

    这个结果其实就和特哥常常讲的一样,有多少钱卖多少钱的设备:买贵的吃不了亏,买便宜的占不了太多便宜。
    以Qwen3.6-27B为例:

    1. 跑在AI MAX 395的8086S上,PP才281个,吐字才11个,这个机器14000RMB,你买到了128G的大显存,还得到了一台不错的windows/linux主机,但是速度没法和独立显卡相比;
    2. 跑在R9700上,PP一下子914个,吐字有26个每秒,这才是可用的速度,但代价是11000RMB;
    3. 跑在4090上,这生态上的优势马上就出来了,用vLLM打开成熟的MTP支持,多请求PP一下子2557个,吐字115个(不要去折腾A卡的vLLM了,我尝试过,Qwen3.6支持度不行,上下文有限, 单请求速度不如llama.cpp),即使跑在llama.cpp上,PP速度也能到2402,只是吐字速度稍慢,才33个(受限与1TB显存带宽以及没有成熟的MTP)。这个卡30000RMB左右,比R9700贵了2倍左右,但你得到的效果也是2倍。

    所以最后还是看自己,显卡这个市场现在基本上是一分钱一分货(除非被骗),不要纠结。自己想干啥,就买啥。

    备注!AI MAX 395现在要重新评价它了,现在涨价到21000左右了,性价比已经比14000的时候低很多了!

    terryT 1 条回复 最后回复
    9
    • FredF Fred 被引用 于这个主题
    • David ZhangD 离线
      David ZhangD 离线
      David Zhang
      编写于 最后由 编辑
      #2

      作业牛逼,可以置顶!

      FredF 1 条回复 最后回复
      2
      • terryT terry 固定了该主题
      • FredF Fred

        我的装备看这个帖子:
        https://lcz.me/topic/117/小小秀一下我的ai-rig/12

        这个帖子主要是分享一下用这套装备能怎么跑大模型(LLM),有哪些组合,能大概跑出来什么样的效果等等。

        GPU

        • RTX 4090 48G (独立显卡)
        • AMD Radeon AI PRO R9700 32G (独立显卡)
        • AMD Radeon 8060S Graphics 128G(AI MAX 395的集成显卡)

        各自的特点:

        1. AI Max 395:价格14000RMB左右,集成显卡代号8060S,共享内存128G,内存最大,能通吃许多大模型, 但算力最低,内存带宽260G左右,也是最低,所以跑大模型的速度最慢;
        2. 4090 48G:价格30000RMB左右,最贵,最快,显存带宽1TB左右,生态最好,vLLM可以跑得飞起,但48G显存吃不下超大模型,但跑27B模型或者30B模型,可以把上下文放256K,非常爽;
        3. R9700 32G:价格11000RMB左右,32G显存,速度尚可,性价比高,但算力和显存带宽(660G左右),都不如4090,因此速度介于8060S集成显卡和4090之间,能跑27B模型,选择Q4量化模型,上下文也能到256K。

        玩法

        分3类:

        1. 小模型单卡玩法,这就不说了,就是用一个卡跑一个模型;
        2. 中等模型分2卡玩法,例如Qwen3.5-122B模型,本来可以直接跑在AI MAX 395的集成显卡上,但我嫌他性能太差,然而4090和R9700两个卡,任何一个的显存又不够单跑这个模型,但2个卡加起来80G的VRAM就够了,因此可以将它用llama.cpp的-ts参数,分层到2块卡上跑,效果惊人地快;
        3. 超大模型分卡分3卡玩法,例如MiniMax M2.7这种,下载下来哪怕是Q4的量化版本,都有120多GB,连AI MAX 395的128GB都放不下(需要留内存给系统和kv cache),这种情况,可以把同一个模型分成3部分,让4090承担大头,AI MAX395承担中头,R9700承担小头。这样的性能会被AI MAX 395的集成显卡拖后腿,但是能跑,而且如果不用长上下文的Agent,仅用来聊天(利用超大知识库),性能也可以接受(吐字不慢)。

        后面我就把这几种方法跑出来的效果给大家汇报一下。

        测试工具

        llama-benchy: 我用这个工具,它是通过openai的兼容api端点做压测,可以对任何推理引擎做压测(我是vLLM和llama.cpp),它能反映最终用户(例如Hermes Agent)能真正感受到的速度。
        GitHub - eugr/llama-benchy: llama-benchy - llama-bench style benchmarking tool for all backends

        压测结果

        模型 参数量 量化方式 权重大小 推理框架 GPU PROMPT PREFILL (pp8192) TOKEN GENERATION (tg512)
        MiniMax2.7 230B-A10B UD-IQ4_XS 102GB llama.cpp (-ts) 4090+R9700+8060S 781.68 27.74
        Qwen3.5-122B-A10B 122B-A10B UD-Q4_K_XL 73GB llama.cpp 8060S 352.36 20.96
        Qwen3.5-122B-A10B 122B-A10B UD-Q4_K_XL 73GB llama.cpp (-ts) 4090+R9700 2234.51 53.63
        Qwen3.6-35B-A3B 35B-A3B Q5_K_XL 25G llama.cpp 4090 7978.24 162.10
        Qwen3.6-35B-A3B 35B-A3B Q5_K_XL 25G llama.cpp R9700 2880.76 79.05
        Qwen3.6-35B-A3B 35B-A3B Q5_K_XL 25G llama.cpp 8060S 946.44 50.77
        Qwen3.6-27B 27B AWQ-6Bit 26GB vLLM 4090 2557.59 115.47 (with MTP)
        Qwen3.6-27B 27B UD-Q6_K_XL 25GB llama.cpp 4090 2402.65 33.88
        Qwen3.6-27B 27B UD-Q4_K_XL 17GB llama.cpp R9700 914.31 26.56
        Qwen3.6-27B 27B UD-Q4_K_XL 17GB llama.cpp 8060S 281.44 11.83

        结论

        这个结果其实就和特哥常常讲的一样,有多少钱卖多少钱的设备:买贵的吃不了亏,买便宜的占不了太多便宜。
        以Qwen3.6-27B为例:

        1. 跑在AI MAX 395的8086S上,PP才281个,吐字才11个,这个机器14000RMB,你买到了128G的大显存,还得到了一台不错的windows/linux主机,但是速度没法和独立显卡相比;
        2. 跑在R9700上,PP一下子914个,吐字有26个每秒,这才是可用的速度,但代价是11000RMB;
        3. 跑在4090上,这生态上的优势马上就出来了,用vLLM打开成熟的MTP支持,多请求PP一下子2557个,吐字115个(不要去折腾A卡的vLLM了,我尝试过,Qwen3.6支持度不行,上下文有限, 单请求速度不如llama.cpp),即使跑在llama.cpp上,PP速度也能到2402,只是吐字速度稍慢,才33个(受限与1TB显存带宽以及没有成熟的MTP)。这个卡30000RMB左右,比R9700贵了2倍左右,但你得到的效果也是2倍。

        所以最后还是看自己,显卡这个市场现在基本上是一分钱一分货(除非被骗),不要纠结。自己想干啥,就买啥。

        备注!AI MAX 395现在要重新评价它了,现在涨价到21000左右了,性价比已经比14000的时候低很多了!

        terryT 离线
        terryT 离线
        terry
        编写于 最后由 编辑
        #3

        @Fred 我草,这绝对精华帖子,我要做一个单独视频,给老弟署名。你给弄几张 截图啊,最好是黑乎乎的背景,显得逼格高点。卡和设备给我再拍几张图片发进来。我做完视频加入这个链接,让大家来膜拜下你。

        FredF 1 条回复 最后回复
        1
        • terryT terry

          @Fred 我草,这绝对精华帖子,我要做一个单独视频,给老弟署名。你给弄几张 截图啊,最好是黑乎乎的背景,显得逼格高点。卡和设备给我再拍几张图片发进来。我做完视频加入这个链接,让大家来膜拜下你。

          FredF 离线
          FredF 离线
          Fred
          编写于 最后由 编辑
          #4

          @terry 说:

          @Fred 我草,这绝对精华帖子,我要做一个单独视频,给老弟署名。你给弄几张 截图啊,最好是黑乎乎的背景,显得逼格高点。卡和设备给我再拍几张图片发进来。我做完视频加入这个链接,让大家来膜拜下你。

          哈哈不用单做视频特哥。我经常看你油管,学到很多东西,想着回报一下你。我的资料你随便用在视频里面。我是属于那种闲散玩法,比较佛系,有时间就来吹吹牛逼,分享点内容。不过我这个配置是有误导性的:不推荐显卡坞,有条件一定是尽量PCIE直连。我这是属于放养式玩法,不是生产力的标配,可靠性,性能都比PCIE直连差点意思。

          terryT 1 条回复 最后回复
          0
          • David ZhangD David Zhang

            作业牛逼,可以置顶!

            FredF 离线
            FredF 离线
            Fred
            编写于 最后由 编辑
            #5

            @David-Zhang 说:

            作业牛逼,可以置顶!

            谢谢看帖和肯定!

            1 条回复 最后回复
            0
            • FredF Fred

              @terry 说:

              @Fred 我草,这绝对精华帖子,我要做一个单独视频,给老弟署名。你给弄几张 截图啊,最好是黑乎乎的背景,显得逼格高点。卡和设备给我再拍几张图片发进来。我做完视频加入这个链接,让大家来膜拜下你。

              哈哈不用单做视频特哥。我经常看你油管,学到很多东西,想着回报一下你。我的资料你随便用在视频里面。我是属于那种闲散玩法,比较佛系,有时间就来吹吹牛逼,分享点内容。不过我这个配置是有误导性的:不推荐显卡坞,有条件一定是尽量PCIE直连。我这是属于放养式玩法,不是生产力的标配,可靠性,性能都比PCIE直连差点意思。

              terryT 离线
              terryT 离线
              terry
              编写于 最后由 编辑
              #6

              @Fred 赶紧补图,我好白嫖一期,你这配置怎么能算误导呢?再说了,还得看我怎么写视频脚本对吧。

              FredF 1 条回复 最后回复
              0
              • terryT terry

                @Fred 赶紧补图,我好白嫖一期,你这配置怎么能算误导呢?再说了,还得看我怎么写视频脚本对吧。

                FredF 离线
                FredF 离线
                Fred
                编写于 最后由 编辑
                #7

                @terry 说:

                @Fred 赶紧补图,我好白嫖一期,你这配置怎么能算误导呢?再说了,还得看我怎么写视频脚本对吧。

                行。明天我再硬件板块那个原贴里补些细节图。

                1 条回复 最后回复
                0
                • James WeiJ 离线
                  James WeiJ 离线
                  James Wei
                  编写于 最后由 编辑
                  #8

                  我是395用户,最近上了MTP,体验感好了很多,Qwen3.5-122B-A10B-Q4KXL可以跑到32t/s,Qwen3.6-35B-A3B-Q8KXL可以跑到55t/s,APEX-balance量化可以跑到75t/s, Qwen3.6-27B-Q4KXL可以跑到25t/s

                  FredF 1 条回复 最后回复
                  0
                  • James WeiJ James Wei

                    我是395用户,最近上了MTP,体验感好了很多,Qwen3.5-122B-A10B-Q4KXL可以跑到32t/s,Qwen3.6-35B-A3B-Q8KXL可以跑到55t/s,APEX-balance量化可以跑到75t/s, Qwen3.6-27B-Q4KXL可以跑到25t/s

                    FredF 离线
                    FredF 离线
                    Fred
                    编写于 最后由 编辑
                    #9

                    @James-Wei 说:

                    我是395用户,最近上了MTP,体验感好了很多,Qwen3.5-122B-A10B-Q4KXL可以跑到32t/s,Qwen3.6-35B-A3B-Q8KXL可以跑到55t/s,APEX-balance量化可以跑到75t/s, Qwen3.6-27B-Q4KXL可以跑到25t/s

                    对。我也测试过那个PR,MTP确实是对TG速度效果显著。目前还有些限制,必然PP速度降低,多模态功能被抹掉,我就暂时不上,坐等MTP合入llama.cpp主线,然后AI MAX 395就能凭空性能翻倍了。

                    1 条回复 最后回复
                    0
                    • xiaopbroX 离线
                      xiaopbroX 离线
                      xiaopbro
                      编写于 最后由 编辑
                      #10

                      实测R9700,和楼主说的一样,跑qwen3.6-27b-q4挺慢的

                      1 条回复 最后回复
                      1
                      • P 离线
                        P 离线
                        Pita
                        编写于 最后由 编辑
                        #11

                        這真的是超級乾貨了...一百個讚

                        1 条回复 最后回复
                        0
                        • M 离线
                          M 离线
                          mark
                          编写于 最后由 编辑
                          #12

                          牛逼啊.... 感谢楼主分享.
                          祝楼主福如东海,寿比南山.

                          1 条回复 最后回复
                          0
                          • terryT terry 取消固定了该主题
                          • terryT terry 固定了该主题
                          • L 离线
                            L 离线
                            linghu007
                            编写于 最后由 编辑
                            #13

                            R9700还是在我意向购买的最终目标中,因为架构更新,未来支持更久,虽然慢点,但可以支持4卡并联,性价比也高。

                            1 条回复 最后回复
                            0
                            • 系统 取消固定了该主题

                            你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                            厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                            有了你的建议,这篇帖子会更精彩哦 💗

                            注册 登录
                            回复
                            • 在新帖中回复
                            登录后回复
                            • 从旧到新
                            • 从新到旧
                            • 最多赞同


                            • 登录

                            • 没有帐号? 注册

                            • 登录或注册以进行搜索。
                            • 第一个帖子
                              最后一个帖子
                            0
                            • 版块
                            • 最新
                            • 标签
                            • 热门
                            • 用户
                            • 群组