跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. LLM讨论区
  3. 4080&4090不同模型token性能测试

4080&4090不同模型token性能测试

已定时 已固定 已锁定 已移动 LLM讨论区
18 帖子 8 发布者 448 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • B 在线
    B 在线
    blackjack
    编写于 最后由 编辑
    #2

    多上几张机箱和拓展坞还有连接的图啊

    M 2 条回复 最后回复
    0
    • M Michael Zhou

      两块显卡:【RTX 4080 32GB】 和 【RTX 4090 48GB】, 都接的显卡坞(x4@PCI-E 3)。最近完整看完了“老特抡锤者”频道的相关视频,也参考了论坛里各位大神的经验分享,随后针对不同模型、量化版本、上下文长度以及MTP 参数进行了多轮测试。把测试结果整理出来,供大家参考。

      【20260529更新_2】

      4090 / 4080 当前生产配置(亮点:Uncensored 模型驱动Hermes,什么活都不拒绝)

      参数 4090 4080
      GPU RTX 4090 48GB (Ada) RTX 4080 32GB (Ada)
      框架 vLLM 0.21.0 vLLM 0.21.0
      Service vllm-4090-27b-fp8 vllm-4080-heretic-gptq
      模型 官方 Qwen3.6-27B-FP8 llmfan46 Heretic v2 GPTQ-Int4
      客户端用途 Claude Code Hermes
      Censored ❌ ✅ uncensored (MPOA)
      量化 FP8 E4M3 block 128×128 GPTQ-Int4 (Marlin)
      KV dtype fp8 fp8
      max-model-len 262144 (256K) 262144 (256K)
      max-num-seqs 1 1
      gpu-mem-util 0.97 0.96
      MTP s 5 3
      tool-call-parser qwen3_coder qwen3_coder
      reasoning-parser qwen3 qwen3
      prefix-caching ✅ ✅
      vision/video ✅ 内嵌 ✅ 内嵌
      bench tok/s 54.2 62.7
      bench accept 54% 61%
      实际场景 73-76 tok/s(高命中 99% accept) 接近一致

      【20260529更新_1】

      03382072-3ea1-4666-8a27-7e57a5d172a3-image.jpeg
      46307668-c032-4321-9972-9464ad019234-image.jpeg
      ac56489e-dde7-4c7c-87d9-ed8edb132ea0-image.jpeg
      2ef49ea1-2f4f-4cb5-b5d4-fe083120ca98-微信图片_20260529102451_763_277.jpg

      【先上图,证明不是云】

      微信图片_20260525230946_630_277.jpg
      微信图片_20260525230945_629_277.jpg

      【平台信息】

      类别 项 配置
      机型 型号 HP Z4 G4 Workstation
      电源 750 W
      CPU 型号 Intel Xeon W-2133
      主频 3.6 GHz
      核 / 线程 6 核 / 12 线程
      内存 类型 DDR4
      容量 32 GB
      GPU 0 型号 RTX 4090(魔改)
      显存 48 GB
      用途 主推理
      GPU 1 型号 RTX 4080(魔改)
      显存 32 GB
      用途 副推理
      GPU 2 型号 RTX 2080 Ti(魔改)
      显存 22 GB
      用途 ComfyUI
      显存合计 102 GB
      系统盘 类型 NVMe M.2 SSD
      容量 256 GB
      数据盘 挂载点 /data
      容量 458 GB
      系统 OS Ubuntu 24.04 LTS
      内核 Linux 6.17.0-29-generic

      【4090 token 性能历史】

      时间 模型 + 后端 量化 ctx MTP 视觉 uncensored 单流 tok/s 并发 tok/s
      2026-05-17 Qwen3.6-27B-FP8 vLLM FP8 + FP8 KV 256K s=3 ✅ ❌ 37 —
      2026-05-21 QuantTrio AWQ Dense vLLM AWQ INT4 + FP8 KV 256K s=3 ❌ ❌ 81 208 (并发3)
      2026-05-23 中 QuantTrio AWQ-6Bit vLLM AWQ 6-bit 256K s=3 ❌ ❌ 68 124 (并发2, 反慢)
      2026-05-23 中 QuantTrio 35B-A3B vLLM AWQ INT4 256K s=3 ❌ ❌ 107 351 (并发5)
      2026-05-23 晚 35B-A3B 无 MTP vLLM AWQ INT4 + batched=16384 256K ❌ 关 ❌ ❌ 145 337 (并发5)
      2026-05-24 Qwen3.6-27B-FP8 vLLM FP8 + FP8 KV + prefix-cache 256K s=5 ✅ ❌ 60.8 —
      2026-05-24 Qwen3.6-27B-FP8 vLLM 同上 256K s=7 ✅ ❌ 63.8 —
      2026-05-24 Qwen3.6-27B-FP8 vLLM 同上 256K s=8 ✅ ❌ 64.0(边际死) —
      2026-05-25 Heretic Q8 llama.cpp(试) Q8 + q8_0 KV 256K n=3 ✅ ✅ 63.4 —
      2026-05-25 Heretic Q8 llama.cpp(试) 同上 256K n=5 ✅ ✅ 66.5 —
      2026-05-25 Heretic GPTQ-Int4 vLLM(失败) GPTQ-Int4 256K s=3 — ✅ 21(accept 1.25% broken) —
      2026-05-25 Heretic Q8 llama.cpp ⭐ 当前 default Q8 + q8_0 KV 256K n=7 ✅ ✅ 68.7 —

      【4080 token 性能历史】

      时间 模型 + 后端 量化 ctx MTP 视觉 uncensored 单流 tok/s
      2026-05-09 QuantTrio AWQ Dense vLLM 0.20.1 AWQ INT4 + FP8 KV 128K s=3 ❌ ❌ 62.9
      2026-05-11 同上 vLLM 0.20.2(regression) AWQ INT4 128K s=2 ❌ ❌ 45.6
      2026-05-22 HauhauCS 27B Aggressive llama.cpp Q4_K_P GGUF 256K ❌ 无(mmproj 互斥) ✅ ✅ 32
      2026-05-23 QuantTrio 35B-A3B vLLM AWQ INT4 + FP8 KV + seqs=1 256K 无 ❌ ❌ 106
      2026-05-23 同上 同上 256K s=1 ❌ ❌ 77
      2026-05-23 同上 同上 256K s=2 ❌ ❌ 93
      2026-05-23 QuantTrio 35B-A3B vLLM 同上 256K s=3 ❌ ❌ 117
      2026-05-24 SummonGov 27B-MTP graft Q6_K_P GGUF + q8 KV 64K n=1 ❌ ✅ 40.1
      2026-05-24 同上 同上 64K n=2 ❌ ✅ 50.1
      2026-05-24 同上 同上 64K n=3 ❌ ✅ 55.7
      2026-05-24 同上 同上 64K n=5 ❌ ✅ 58.9
      2026-05-24 同上 同上 64K n=7 ❌ ✅ 55.3
      2026-05-24 SummonGov 27B-MTP Q4_K_P GGUF + q8 KV 64K n=3 ❌ ✅ 20.6(accept 2% broken)
      2026-05-24 同上 同上 64K n=5 ❌ ✅ 62.5
      2026-05-24 同上 同上 64K n=7 ❌ ✅ 56.8
      2026-05-24 llmfan46 Heretic Q6_K llama.cpp Q6_K + q8 KV 64K n=3 ✅ ✅ 57.0
      2026-05-24 同上 同上 64K n=5 ✅ ✅ 61.6
      2026-05-24 同上 同上 64K n=7 ✅ ✅ 56.5
      2026-05-24 同上 q8_0 KV @ 256K Q6_K + q8 KV 256K n=5 ✅ ✅ OOM 差 836 MiB
      2026-05-24 同上 q5_1 KV @ 256K Q6_K + q5_1 KV 256K n=5 ✅ ✅ 慢(flash-attn 不兼容)
      2026-05-24 同上 q5_0 KV @ 256K Q6_K + q5_0 KV 256K n=5 ✅ ✅ 12(slow path)
      2026-05-24 同上 iq4_nl KV @ 256K Q6_K + iq4_nl KV 256K n=5 ✅ ✅ 26(slow path)
      2026-05-24 Heretic GPTQ-Int4 vLLM(失败) GPTQ INT4 256K s=3 — ✅ 21(accept 1.25%)
      2026-05-24 llmfan46 Heretic Q6_K llama.cpp ⭐ 当前 default Q6_K + q4_0 KV 256K n=5 ✅ ✅ 58-62
      rock shiR 离线
      rock shiR 离线
      rock shi
      编写于 最后由 编辑
      #3

      @Michael-Zhou 妈耶,感觉4080跟我3080差不多

      1 条回复 最后回复
      0
      • williamlouisW 离线
        williamlouisW 离线
        williamlouis
        编写于 最后由 编辑
        #4

        感谢分享。棒棒哒。辛苦了兄弟。

        个人主页:xlkj.org Telegram https://t.me/xlkjorg

        1 条回复 最后回复
        0
        • B blackjack

          多上几张机箱和拓展坞还有连接的图啊

          M 离线
          M 离线
          Michael Zhou
          编写于 最后由 编辑
          #5

          @blackjack 明天找时间上图

          terryT 1 条回复 最后回复
          0
          • M Michael Zhou

            @blackjack 明天找时间上图

            terryT 在线
            terryT 在线
            terry
            超级版主
            编写于 最后由 编辑
            #6

            @Michael-Zhou 这个玩的有点让人热血澎湃,说真的我也挺羡慕的,😂

            油管:https://www.youtube.com/@抡锤者

            1 条回复 最后回复
            0
            • terryT terry 固定了该主题
            • Groot AceG 离线
              Groot AceG 离线
              Groot Ace
              编写于 最后由 编辑
              #7

              有点无从下手啊 怎么办呢?

              1 条回复 最后回复
              0
              • 系统 取消固定了该主题
              • B blackjack

                多上几张机箱和拓展坞还有连接的图啊

                M 离线
                M 离线
                Michael Zhou
                编写于 最后由 编辑
                #8

                @blackjack 图片更新了

                terryT B 2 条回复 最后回复
                0
                • terryT terry 固定了该主题
                • M Michael Zhou

                  @blackjack 图片更新了

                  terryT 在线
                  terryT 在线
                  terry
                  超级版主
                  编写于 最后由 编辑
                  #9

                  @Michael-Zhou 这台式机是安装了Oculink的PICE扩展卡?

                  油管:https://www.youtube.com/@抡锤者

                  M 1 条回复 最后回复
                  0
                  • M Michael Zhou

                    @blackjack 图片更新了

                    B 在线
                    B 在线
                    blackjack
                    编写于 最后由 编辑
                    #10

                    @Michael-Zhou 说:

                    @blackjack 图片更新了

                    非常感谢,人在日本啊

                    M 1 条回复 最后回复
                    0
                    • B blackjack

                      @Michael-Zhou 说:

                      @blackjack 图片更新了

                      非常感谢,人在日本啊

                      M 离线
                      M 离线
                      Michael Zhou
                      编写于 最后由 编辑
                      #11

                      @blackjack 不在日本。图片是EDIX参展时拍的,估计大家喜欢看,就放上去了。

                      jenaflexJ 1 条回复 最后回复
                      1
                      • terryT terry

                        @Michael-Zhou 这台式机是安装了Oculink的PICE扩展卡?

                        M 离线
                        M 离线
                        Michael Zhou
                        编写于 最后由 编辑
                        #12

                        @terry 是的, PCIE x16的槽拆分成x4x4x4x4,PICE扩展卡能接4个显卡坞。

                        1 条回复 最后回复
                        1
                        • M Michael Zhou

                          @blackjack 不在日本。图片是EDIX参展时拍的,估计大家喜欢看,就放上去了。

                          jenaflexJ 离线
                          jenaflexJ 离线
                          jenaflex
                          编写于 最后由 jenaflex 编辑
                          #13

                          @Michael-Zhou 对大家(lsp)得口味把握精准 哈哈哈哈
                          你得oculink卡是内置PLX拆分芯片,还是利用BIOS的Bifurcation?
                          好像记得Intel商用机工作站主板很少支持Bifurcation的,AMD EPYC主板支持的比较多

                          M 1 条回复 最后回复
                          0
                          • jenaflexJ jenaflex

                            @Michael-Zhou 对大家(lsp)得口味把握精准 哈哈哈哈
                            你得oculink卡是内置PLX拆分芯片,还是利用BIOS的Bifurcation?
                            好像记得Intel商用机工作站主板很少支持Bifurcation的,AMD EPYC主板支持的比较多

                            M 离线
                            M 离线
                            Michael Zhou
                            编写于 最后由 编辑
                            #14

                            @jenaflex 转接卡上没有芯片,就是把PCIEx16分成4份直通出四个oculink口。用的BIOS的Bifurcation。主机是某宝入的二手HP Z4 G4 Workstation,支持PCIE拆分。

                            jenaflexJ 1 条回复 最后回复
                            0
                            • M Michael Zhou

                              @jenaflex 转接卡上没有芯片,就是把PCIEx16分成4份直通出四个oculink口。用的BIOS的Bifurcation。主机是某宝入的二手HP Z4 G4 Workstation,支持PCIE拆分。

                              jenaflexJ 离线
                              jenaflexJ 离线
                              jenaflex
                              编写于 最后由 编辑
                              #15

                              @Michael-Zhou 哇塞,自带拆分,那的确不错,捡到宝了

                              1 条回复 最后回复
                              0
                              • 系统 取消固定了该主题
                              • demoD 离线
                                demoD 离线
                                demo
                                编写于 最后由 编辑
                                #16

                                Zhou,请教一下,HauhauCS 27B Aggressive llama.cpp 是怎样配置视觉参数的呢?我问了gemini和豆包,都是不带视觉的。但是询问他们俩关于比较新的第三方模型,他们总是会出现幻觉

                                M 1 条回复 最后回复
                                0
                                • demoD demo

                                  Zhou,请教一下,HauhauCS 27B Aggressive llama.cpp 是怎样配置视觉参数的呢?我问了gemini和豆包,都是不带视觉的。但是询问他们俩关于比较新的第三方模型,他们总是会出现幻觉

                                  M 离线
                                  M 离线
                                  Michael Zhou
                                  编写于 最后由 Michael Zhou 编辑
                                  #17

                                  @demo 记得是通过加载mmproj 启用视觉, 但是mmproj 和MTP没办法同时开,后面没用这个模型。
                                  推荐vllm跑https://huggingface.co/llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GPTQ-Int4 , 这个有视觉, 我一直跑着,很稳定。
                                  4080 32G启动参数:

                                  exec /data/vllm-env/bin/vllm serve /data/models/heretic-gptq-int4 \
                                      --served-model-name 4080 \
                                      --port 8002 \
                                      --max-model-len 262144 \
                                      --max-num-seqs 1 \
                                      --gpu-memory-utilization 0.96 \
                                      --enable-prefix-caching \
                                      --kv-cache-dtype fp8 \
                                      --trust-remote-code \
                                      --reasoning-parser qwen3 \
                                      --enable-auto-tool-choice \
                                      --tool-call-parser qwen3_coder \
                                      --speculative-config '{"method":"mtp","num_speculative_tokens":3}'
                                  
                                  demoD 1 条回复 最后回复
                                  1
                                  • M Michael Zhou

                                    @demo 记得是通过加载mmproj 启用视觉, 但是mmproj 和MTP没办法同时开,后面没用这个模型。
                                    推荐vllm跑https://huggingface.co/llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GPTQ-Int4 , 这个有视觉, 我一直跑着,很稳定。
                                    4080 32G启动参数:

                                    exec /data/vllm-env/bin/vllm serve /data/models/heretic-gptq-int4 \
                                        --served-model-name 4080 \
                                        --port 8002 \
                                        --max-model-len 262144 \
                                        --max-num-seqs 1 \
                                        --gpu-memory-utilization 0.96 \
                                        --enable-prefix-caching \
                                        --kv-cache-dtype fp8 \
                                        --trust-remote-code \
                                        --reasoning-parser qwen3 \
                                        --enable-auto-tool-choice \
                                        --tool-call-parser qwen3_coder \
                                        --speculative-config '{"method":"mtp","num_speculative_tokens":3}'
                                    
                                    demoD 离线
                                    demoD 离线
                                    demo
                                    编写于 最后由 编辑
                                    #18

                                    @Michael-Zhou 哈,我昨天也是安装了这位大佬的另外一个模型https://huggingface.co/llmfan46/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-GPTQ-Int4,暂时使用也是稳定,速度还不错。我4080S32G。
                                    简单爆测结果:

                                    Qwen3.6-27B-GPTQ-Int4 @ RTX 4080 SUPER
                                    
                                    | 指标                   | 数值                                         |
                                    |------------------------|----------------------------------------------|
                                    | 吐字速度               | ~56 tok/s                                    |
                                    | 包含 thinking 推理     | 544 tokens / 9.6s                            |
                                    | 去 thinking 纯有效输出 | 看你 prompt 带不带 [SYSTEM: No reasoning]    |
                                    
                                    1 条回复 最后回复
                                    0

                                    你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                    厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                    有了你的建议,这篇帖子会更精彩哦 💗

                                    注册 登录
                                    回复
                                    • 在新帖中回复
                                    登录后回复
                                    • 从旧到新
                                    • 从新到旧
                                    • 最多赞同


                                    • 登录

                                    • 没有帐号? 注册

                                    • 登录或注册以进行搜索。
                                    • 第一个帖子
                                      最后一个帖子
                                    0
                                    • 版块
                                    • 最新
                                    • 标签
                                    • 热门
                                    • 用户
                                    • 群组