跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 4080&4090不同模型token性能测试

4080&4090不同模型token性能测试

已定时 已固定 已锁定 已移动 LLM讨论区
18 帖子 8 发布者 448 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • M Michael Zhou

    两块显卡:【RTX 4080 32GB】 和 【RTX 4090 48GB】, 都接的显卡坞(x4@PCI-E 3)。最近完整看完了“老特抡锤者”频道的相关视频,也参考了论坛里各位大神的经验分享,随后针对不同模型、量化版本、上下文长度以及MTP 参数进行了多轮测试。把测试结果整理出来,供大家参考。

    【20260529更新_2】

    4090 / 4080 当前生产配置(亮点:Uncensored 模型驱动Hermes,什么活都不拒绝)

    参数 4090 4080
    GPU RTX 4090 48GB (Ada) RTX 4080 32GB (Ada)
    框架 vLLM 0.21.0 vLLM 0.21.0
    Service vllm-4090-27b-fp8 vllm-4080-heretic-gptq
    模型 官方 Qwen3.6-27B-FP8 llmfan46 Heretic v2 GPTQ-Int4
    客户端用途 Claude Code Hermes
    Censored ❌ ✅ uncensored (MPOA)
    量化 FP8 E4M3 block 128×128 GPTQ-Int4 (Marlin)
    KV dtype fp8 fp8
    max-model-len 262144 (256K) 262144 (256K)
    max-num-seqs 1 1
    gpu-mem-util 0.97 0.96
    MTP s 5 3
    tool-call-parser qwen3_coder qwen3_coder
    reasoning-parser qwen3 qwen3
    prefix-caching ✅ ✅
    vision/video ✅ 内嵌 ✅ 内嵌
    bench tok/s 54.2 62.7
    bench accept 54% 61%
    实际场景 73-76 tok/s(高命中 99% accept) 接近一致

    【20260529更新_1】

    03382072-3ea1-4666-8a27-7e57a5d172a3-image.jpeg
    46307668-c032-4321-9972-9464ad019234-image.jpeg
    ac56489e-dde7-4c7c-87d9-ed8edb132ea0-image.jpeg
    2ef49ea1-2f4f-4cb5-b5d4-fe083120ca98-微信图片_20260529102451_763_277.jpg

    【先上图,证明不是云】

    微信图片_20260525230946_630_277.jpg
    微信图片_20260525230945_629_277.jpg

    【平台信息】

    类别 项 配置
    机型 型号 HP Z4 G4 Workstation
    电源 750 W
    CPU 型号 Intel Xeon W-2133
    主频 3.6 GHz
    核 / 线程 6 核 / 12 线程
    内存 类型 DDR4
    容量 32 GB
    GPU 0 型号 RTX 4090(魔改)
    显存 48 GB
    用途 主推理
    GPU 1 型号 RTX 4080(魔改)
    显存 32 GB
    用途 副推理
    GPU 2 型号 RTX 2080 Ti(魔改)
    显存 22 GB
    用途 ComfyUI
    显存合计 102 GB
    系统盘 类型 NVMe M.2 SSD
    容量 256 GB
    数据盘 挂载点 /data
    容量 458 GB
    系统 OS Ubuntu 24.04 LTS
    内核 Linux 6.17.0-29-generic

    【4090 token 性能历史】

    时间 模型 + 后端 量化 ctx MTP 视觉 uncensored 单流 tok/s 并发 tok/s
    2026-05-17 Qwen3.6-27B-FP8 vLLM FP8 + FP8 KV 256K s=3 ✅ ❌ 37 —
    2026-05-21 QuantTrio AWQ Dense vLLM AWQ INT4 + FP8 KV 256K s=3 ❌ ❌ 81 208 (并发3)
    2026-05-23 中 QuantTrio AWQ-6Bit vLLM AWQ 6-bit 256K s=3 ❌ ❌ 68 124 (并发2, 反慢)
    2026-05-23 中 QuantTrio 35B-A3B vLLM AWQ INT4 256K s=3 ❌ ❌ 107 351 (并发5)
    2026-05-23 晚 35B-A3B 无 MTP vLLM AWQ INT4 + batched=16384 256K ❌ 关 ❌ ❌ 145 337 (并发5)
    2026-05-24 Qwen3.6-27B-FP8 vLLM FP8 + FP8 KV + prefix-cache 256K s=5 ✅ ❌ 60.8 —
    2026-05-24 Qwen3.6-27B-FP8 vLLM 同上 256K s=7 ✅ ❌ 63.8 —
    2026-05-24 Qwen3.6-27B-FP8 vLLM 同上 256K s=8 ✅ ❌ 64.0(边际死) —
    2026-05-25 Heretic Q8 llama.cpp(试) Q8 + q8_0 KV 256K n=3 ✅ ✅ 63.4 —
    2026-05-25 Heretic Q8 llama.cpp(试) 同上 256K n=5 ✅ ✅ 66.5 —
    2026-05-25 Heretic GPTQ-Int4 vLLM(失败) GPTQ-Int4 256K s=3 — ✅ 21(accept 1.25% broken) —
    2026-05-25 Heretic Q8 llama.cpp ⭐ 当前 default Q8 + q8_0 KV 256K n=7 ✅ ✅ 68.7 —

    【4080 token 性能历史】

    时间 模型 + 后端 量化 ctx MTP 视觉 uncensored 单流 tok/s
    2026-05-09 QuantTrio AWQ Dense vLLM 0.20.1 AWQ INT4 + FP8 KV 128K s=3 ❌ ❌ 62.9
    2026-05-11 同上 vLLM 0.20.2(regression) AWQ INT4 128K s=2 ❌ ❌ 45.6
    2026-05-22 HauhauCS 27B Aggressive llama.cpp Q4_K_P GGUF 256K ❌ 无(mmproj 互斥) ✅ ✅ 32
    2026-05-23 QuantTrio 35B-A3B vLLM AWQ INT4 + FP8 KV + seqs=1 256K 无 ❌ ❌ 106
    2026-05-23 同上 同上 256K s=1 ❌ ❌ 77
    2026-05-23 同上 同上 256K s=2 ❌ ❌ 93
    2026-05-23 QuantTrio 35B-A3B vLLM 同上 256K s=3 ❌ ❌ 117
    2026-05-24 SummonGov 27B-MTP graft Q6_K_P GGUF + q8 KV 64K n=1 ❌ ✅ 40.1
    2026-05-24 同上 同上 64K n=2 ❌ ✅ 50.1
    2026-05-24 同上 同上 64K n=3 ❌ ✅ 55.7
    2026-05-24 同上 同上 64K n=5 ❌ ✅ 58.9
    2026-05-24 同上 同上 64K n=7 ❌ ✅ 55.3
    2026-05-24 SummonGov 27B-MTP Q4_K_P GGUF + q8 KV 64K n=3 ❌ ✅ 20.6(accept 2% broken)
    2026-05-24 同上 同上 64K n=5 ❌ ✅ 62.5
    2026-05-24 同上 同上 64K n=7 ❌ ✅ 56.8
    2026-05-24 llmfan46 Heretic Q6_K llama.cpp Q6_K + q8 KV 64K n=3 ✅ ✅ 57.0
    2026-05-24 同上 同上 64K n=5 ✅ ✅ 61.6
    2026-05-24 同上 同上 64K n=7 ✅ ✅ 56.5
    2026-05-24 同上 q8_0 KV @ 256K Q6_K + q8 KV 256K n=5 ✅ ✅ OOM 差 836 MiB
    2026-05-24 同上 q5_1 KV @ 256K Q6_K + q5_1 KV 256K n=5 ✅ ✅ 慢(flash-attn 不兼容)
    2026-05-24 同上 q5_0 KV @ 256K Q6_K + q5_0 KV 256K n=5 ✅ ✅ 12(slow path)
    2026-05-24 同上 iq4_nl KV @ 256K Q6_K + iq4_nl KV 256K n=5 ✅ ✅ 26(slow path)
    2026-05-24 Heretic GPTQ-Int4 vLLM(失败) GPTQ INT4 256K s=3 — ✅ 21(accept 1.25%)
    2026-05-24 llmfan46 Heretic Q6_K llama.cpp ⭐ 当前 default Q6_K + q4_0 KV 256K n=5 ✅ ✅ 58-62
    rock shiR 离线
    rock shiR 离线
    rock shi
    编写于 最后由 编辑
    #3

    @Michael-Zhou 妈耶,感觉4080跟我3080差不多

    1 条回复 最后回复
    0
    • williamlouisW 在线
      williamlouisW 在线
      williamlouis
      编写于 最后由 编辑
      #4

      感谢分享。棒棒哒。辛苦了兄弟。

      个人主页:xlkj.org Telegram https://t.me/xlkjorg

      1 条回复 最后回复
      0
      • B blackjack

        多上几张机箱和拓展坞还有连接的图啊

        M 离线
        M 离线
        Michael Zhou
        编写于 最后由 编辑
        #5

        @blackjack 明天找时间上图

        terryT 1 条回复 最后回复
        0
        • M Michael Zhou

          @blackjack 明天找时间上图

          terryT 离线
          terryT 离线
          terry
          超级版主
          编写于 最后由 编辑
          #6

          @Michael-Zhou 这个玩的有点让人热血澎湃,说真的我也挺羡慕的,😂

          油管:https://www.youtube.com/@抡锤者

          1 条回复 最后回复
          0
          • terryT terry 固定了该主题
          • Groot AceG 离线
            Groot AceG 离线
            Groot Ace
            编写于 最后由 编辑
            #7

            有点无从下手啊 怎么办呢?

            1 条回复 最后回复
            0
            • 系统 取消固定了该主题
            • B blackjack

              多上几张机箱和拓展坞还有连接的图啊

              M 离线
              M 离线
              Michael Zhou
              编写于 最后由 编辑
              #8

              @blackjack 图片更新了

              terryT B 2 条回复 最后回复
              0
              • terryT terry 固定了该主题
              • M Michael Zhou

                @blackjack 图片更新了

                terryT 离线
                terryT 离线
                terry
                超级版主
                编写于 最后由 编辑
                #9

                @Michael-Zhou 这台式机是安装了Oculink的PICE扩展卡?

                油管:https://www.youtube.com/@抡锤者

                M 1 条回复 最后回复
                0
                • M Michael Zhou

                  @blackjack 图片更新了

                  B 离线
                  B 离线
                  blackjack
                  编写于 最后由 编辑
                  #10

                  @Michael-Zhou 说:

                  @blackjack 图片更新了

                  非常感谢,人在日本啊

                  M 1 条回复 最后回复
                  0
                  • B blackjack

                    @Michael-Zhou 说:

                    @blackjack 图片更新了

                    非常感谢,人在日本啊

                    M 离线
                    M 离线
                    Michael Zhou
                    编写于 最后由 编辑
                    #11

                    @blackjack 不在日本。图片是EDIX参展时拍的,估计大家喜欢看,就放上去了。

                    jenaflexJ 1 条回复 最后回复
                    1
                    • terryT terry

                      @Michael-Zhou 这台式机是安装了Oculink的PICE扩展卡?

                      M 离线
                      M 离线
                      Michael Zhou
                      编写于 最后由 编辑
                      #12

                      @terry 是的, PCIE x16的槽拆分成x4x4x4x4,PICE扩展卡能接4个显卡坞。

                      1 条回复 最后回复
                      1
                      • M Michael Zhou

                        @blackjack 不在日本。图片是EDIX参展时拍的,估计大家喜欢看,就放上去了。

                        jenaflexJ 离线
                        jenaflexJ 离线
                        jenaflex
                        编写于 最后由 jenaflex 编辑
                        #13

                        @Michael-Zhou 对大家(lsp)得口味把握精准 哈哈哈哈
                        你得oculink卡是内置PLX拆分芯片,还是利用BIOS的Bifurcation?
                        好像记得Intel商用机工作站主板很少支持Bifurcation的,AMD EPYC主板支持的比较多

                        M 1 条回复 最后回复
                        0
                        • jenaflexJ jenaflex

                          @Michael-Zhou 对大家(lsp)得口味把握精准 哈哈哈哈
                          你得oculink卡是内置PLX拆分芯片,还是利用BIOS的Bifurcation?
                          好像记得Intel商用机工作站主板很少支持Bifurcation的,AMD EPYC主板支持的比较多

                          M 离线
                          M 离线
                          Michael Zhou
                          编写于 最后由 编辑
                          #14

                          @jenaflex 转接卡上没有芯片,就是把PCIEx16分成4份直通出四个oculink口。用的BIOS的Bifurcation。主机是某宝入的二手HP Z4 G4 Workstation,支持PCIE拆分。

                          jenaflexJ 1 条回复 最后回复
                          0
                          • M Michael Zhou

                            @jenaflex 转接卡上没有芯片,就是把PCIEx16分成4份直通出四个oculink口。用的BIOS的Bifurcation。主机是某宝入的二手HP Z4 G4 Workstation,支持PCIE拆分。

                            jenaflexJ 离线
                            jenaflexJ 离线
                            jenaflex
                            编写于 最后由 编辑
                            #15

                            @Michael-Zhou 哇塞,自带拆分,那的确不错,捡到宝了

                            1 条回复 最后回复
                            0
                            • 系统 取消固定了该主题
                            • demoD 离线
                              demoD 离线
                              demo
                              编写于 最后由 编辑
                              #16

                              Zhou,请教一下,HauhauCS 27B Aggressive llama.cpp 是怎样配置视觉参数的呢?我问了gemini和豆包,都是不带视觉的。但是询问他们俩关于比较新的第三方模型,他们总是会出现幻觉

                              M 1 条回复 最后回复
                              0
                              • demoD demo

                                Zhou,请教一下,HauhauCS 27B Aggressive llama.cpp 是怎样配置视觉参数的呢?我问了gemini和豆包,都是不带视觉的。但是询问他们俩关于比较新的第三方模型,他们总是会出现幻觉

                                M 离线
                                M 离线
                                Michael Zhou
                                编写于 最后由 Michael Zhou 编辑
                                #17

                                @demo 记得是通过加载mmproj 启用视觉, 但是mmproj 和MTP没办法同时开,后面没用这个模型。
                                推荐vllm跑https://huggingface.co/llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GPTQ-Int4 , 这个有视觉, 我一直跑着,很稳定。
                                4080 32G启动参数:

                                exec /data/vllm-env/bin/vllm serve /data/models/heretic-gptq-int4 \
                                    --served-model-name 4080 \
                                    --port 8002 \
                                    --max-model-len 262144 \
                                    --max-num-seqs 1 \
                                    --gpu-memory-utilization 0.96 \
                                    --enable-prefix-caching \
                                    --kv-cache-dtype fp8 \
                                    --trust-remote-code \
                                    --reasoning-parser qwen3 \
                                    --enable-auto-tool-choice \
                                    --tool-call-parser qwen3_coder \
                                    --speculative-config '{"method":"mtp","num_speculative_tokens":3}'
                                
                                demoD 1 条回复 最后回复
                                1
                                • M Michael Zhou

                                  @demo 记得是通过加载mmproj 启用视觉, 但是mmproj 和MTP没办法同时开,后面没用这个模型。
                                  推荐vllm跑https://huggingface.co/llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GPTQ-Int4 , 这个有视觉, 我一直跑着,很稳定。
                                  4080 32G启动参数:

                                  exec /data/vllm-env/bin/vllm serve /data/models/heretic-gptq-int4 \
                                      --served-model-name 4080 \
                                      --port 8002 \
                                      --max-model-len 262144 \
                                      --max-num-seqs 1 \
                                      --gpu-memory-utilization 0.96 \
                                      --enable-prefix-caching \
                                      --kv-cache-dtype fp8 \
                                      --trust-remote-code \
                                      --reasoning-parser qwen3 \
                                      --enable-auto-tool-choice \
                                      --tool-call-parser qwen3_coder \
                                      --speculative-config '{"method":"mtp","num_speculative_tokens":3}'
                                  
                                  demoD 离线
                                  demoD 离线
                                  demo
                                  编写于 最后由 编辑
                                  #18

                                  @Michael-Zhou 哈,我昨天也是安装了这位大佬的另外一个模型https://huggingface.co/llmfan46/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-GPTQ-Int4,暂时使用也是稳定,速度还不错。我4080S32G。
                                  简单爆测结果:

                                  Qwen3.6-27B-GPTQ-Int4 @ RTX 4080 SUPER
                                  
                                  | 指标                   | 数值                                         |
                                  |------------------------|----------------------------------------------|
                                  | 吐字速度               | ~56 tok/s                                    |
                                  | 包含 thinking 推理     | 544 tokens / 9.6s                            |
                                  | 去 thinking 纯有效输出 | 看你 prompt 带不带 [SYSTEM: No reasoning]    |
                                  
                                  1 条回复 最后回复
                                  0

                                  你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                  厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                  有了你的建议,这篇帖子会更精彩哦 💗

                                  注册 登录
                                  回复
                                  • 在新帖中回复
                                  登录后回复
                                  • 从旧到新
                                  • 从新到旧
                                  • 最多赞同


                                  • 登录

                                  • 没有帐号? 注册

                                  • 登录或注册以进行搜索。
                                  • 第一个帖子
                                    最后一个帖子
                                  0
                                  • 版块
                                  • 最新
                                  • 标签
                                  • 热门
                                  • 用户
                                  • 群组