4080&4090不同模型token性能测试
-
两块显卡:【RTX 4080 32GB】 和 【RTX 4090 48GB】, 都接的显卡坞(x4@PCI-E 3)。最近完整看完了“老特抡锤者”频道的相关视频,也参考了论坛里各位大神的经验分享,随后针对不同模型、量化版本、上下文长度以及MTP 参数进行了多轮测试。把测试结果整理出来,供大家参考。
【20260529更新_2】
4090 / 4080 当前生产配置(亮点:Uncensored 模型驱动Hermes,什么活都不拒绝)
参数 4090 4080 GPU RTX 4090 48GB (Ada) RTX 4080 32GB (Ada) 框架 vLLM 0.21.0 vLLM 0.21.0 Service vllm-4090-27b-fp8vllm-4080-heretic-gptq模型 官方 Qwen3.6-27B-FP8 llmfan46 Heretic v2 GPTQ-Int4 客户端用途 Claude Code Hermes Censored 
uncensored (MPOA)量化 FP8 E4M3 block 128×128 GPTQ-Int4 (Marlin) KV dtype fp8 fp8 max-model-len 262144 (256K) 262144 (256K) max-num-seqs 1 1 gpu-mem-util 0.97 0.96 MTP s 5 3 tool-call-parser qwen3_coder qwen3_coder reasoning-parser qwen3 qwen3 prefix-caching 

vision/video
内嵌
内嵌bench tok/s 54.2 62.7 bench accept 54% 61% 实际场景 73-76 tok/s(高命中 99% accept) 接近一致 【20260529更新_1】




【先上图,证明不是云】


【平台信息】
类别 项 配置 机型 型号 HP Z4 G4 Workstation 电源 750 W CPU 型号 Intel Xeon W-2133 主频 3.6 GHz 核 / 线程 6 核 / 12 线程 内存 类型 DDR4 容量 32 GB GPU 0 型号 RTX 4090(魔改) 显存 48 GB 用途 主推理 GPU 1 型号 RTX 4080(魔改) 显存 32 GB 用途 副推理 GPU 2 型号 RTX 2080 Ti(魔改) 显存 22 GB 用途 ComfyUI 显存合计 102 GB 系统盘 类型 NVMe M.2 SSD 容量 256 GB 数据盘 挂载点 /data容量 458 GB 系统 OS Ubuntu 24.04 LTS 内核 Linux 6.17.0-29-generic 【4090 token 性能历史】
时间 模型 + 后端 量化 ctx MTP 视觉 uncensored 单流 tok/s 并发 tok/s 2026-05-17 Qwen3.6-27B-FP8 vLLM FP8 + FP8 KV 256K s=3 

37 — 2026-05-21 QuantTrio AWQ Dense vLLM AWQ INT4 + FP8 KV 256K s=3 

81 208 (并发3) 2026-05-23 中 QuantTrio AWQ-6Bit vLLM AWQ 6-bit 256K s=3 

68 124 (并发2, 反慢) 2026-05-23 中 QuantTrio 35B-A3B vLLM AWQ INT4 256K s=3 

107 351 (并发5) 2026-05-23 晚 35B-A3B 无 MTP vLLM AWQ INT4 + batched=16384 256K
关

145 337 (并发5) 2026-05-24 Qwen3.6-27B-FP8 vLLM FP8 + FP8 KV + prefix-cache 256K s=5 

60.8 — 2026-05-24 Qwen3.6-27B-FP8 vLLM 同上 256K s=7 

63.8 — 2026-05-24 Qwen3.6-27B-FP8 vLLM 同上 256K s=8 

64.0(边际死) — 2026-05-25 Heretic Q8 llama.cpp(试) Q8 + q8_0 KV 256K n=3 

63.4 — 2026-05-25 Heretic Q8 llama.cpp(试) 同上 256K n=5 

66.5 — 2026-05-25 Heretic GPTQ-Int4 vLLM(失败) GPTQ-Int4 256K s=3 — 
21(accept 1.25% broken) — 2026-05-25 Heretic Q8 llama.cpp
当前 defaultQ8 + q8_0 KV 256K n=7 

68.7 — 【4080 token 性能历史】
时间 模型 + 后端 量化 ctx MTP 视觉 uncensored 单流 tok/s 2026-05-09 QuantTrio AWQ Dense vLLM 0.20.1 AWQ INT4 + FP8 KV 128K s=3 

62.9 2026-05-11 同上 vLLM 0.20.2(regression) AWQ INT4 128K s=2 

45.6 2026-05-22 HauhauCS 27B Aggressive llama.cpp Q4_K_P GGUF 256K
无(mmproj 互斥)

32 2026-05-23 QuantTrio 35B-A3B vLLM AWQ INT4 + FP8 KV + seqs=1 256K 无 

106 2026-05-23 同上 同上 256K s=1 

77 2026-05-23 同上 同上 256K s=2 

93 2026-05-23 QuantTrio 35B-A3B vLLM 同上 256K s=3 

117 2026-05-24 SummonGov 27B-MTP graft Q6_K_P GGUF + q8 KV 64K n=1 

40.1 2026-05-24 同上 同上 64K n=2 

50.1 2026-05-24 同上 同上 64K n=3 

55.7 2026-05-24 同上 同上 64K n=5 

58.9 2026-05-24 同上 同上 64K n=7 

55.3 2026-05-24 SummonGov 27B-MTP Q4_K_P GGUF + q8 KV 64K n=3 

20.6(accept 2% broken) 2026-05-24 同上 同上 64K n=5 

62.5 2026-05-24 同上 同上 64K n=7 

56.8 2026-05-24 llmfan46 Heretic Q6_K llama.cpp Q6_K + q8 KV 64K n=3 

57.0 2026-05-24 同上 同上 64K n=5 

61.6 2026-05-24 同上 同上 64K n=7 

56.5 2026-05-24 同上 q8_0 KV @ 256K Q6_K + q8 KV 256K n=5 

OOM 差 836 MiB 2026-05-24 同上 q5_1 KV @ 256K Q6_K + q5_1 KV 256K n=5 

慢(flash-attn 不兼容) 2026-05-24 同上 q5_0 KV @ 256K Q6_K + q5_0 KV 256K n=5 

12(slow path) 2026-05-24 同上 iq4_nl KV @ 256K Q6_K + iq4_nl KV 256K n=5 

26(slow path) 2026-05-24 Heretic GPTQ-Int4 vLLM(失败) GPTQ INT4 256K s=3 — 
21(accept 1.25%) 2026-05-24 llmfan46 Heretic Q6_K llama.cpp
当前 defaultQ6_K + q4_0 KV 256K n=5 

58-62 @Michael-Zhou 妈耶,感觉4080跟我3080差不多
-
感谢分享。棒棒哒。辛苦了兄弟。
-
@blackjack 明天找时间上图
-
@blackjack 明天找时间上图
-
T terry 固定了该主题
-
系统 取消固定了该主题
-
@blackjack 图片更新了
-
T terry 固定了该主题
-
@blackjack 图片更新了
-
@blackjack 图片更新了
@blackjack 图片更新了
非常感谢,人在日本啊
-
@blackjack 图片更新了
非常感谢,人在日本啊
@blackjack 不在日本。图片是EDIX参展时拍的,估计大家喜欢看,就放上去了。
-
@Michael-Zhou 这台式机是安装了Oculink的PICE扩展卡?
@terry 是的, PCIE x16的槽拆分成x4x4x4x4,PICE扩展卡能接4个显卡坞。
-
@blackjack 不在日本。图片是EDIX参展时拍的,估计大家喜欢看,就放上去了。
@Michael-Zhou 对大家(lsp)得口味把握精准 哈哈哈哈
你得oculink卡是内置PLX拆分芯片,还是利用BIOS的Bifurcation?
好像记得Intel商用机工作站主板很少支持Bifurcation的,AMD EPYC主板支持的比较多 -
@Michael-Zhou 对大家(lsp)得口味把握精准 哈哈哈哈
你得oculink卡是内置PLX拆分芯片,还是利用BIOS的Bifurcation?
好像记得Intel商用机工作站主板很少支持Bifurcation的,AMD EPYC主板支持的比较多@jenaflex 转接卡上没有芯片,就是把PCIEx16分成4份直通出四个oculink口。用的BIOS的Bifurcation。主机是某宝入的二手HP Z4 G4 Workstation,支持PCIE拆分。
-
@jenaflex 转接卡上没有芯片,就是把PCIEx16分成4份直通出四个oculink口。用的BIOS的Bifurcation。主机是某宝入的二手HP Z4 G4 Workstation,支持PCIE拆分。
@Michael-Zhou 哇塞,自带拆分,那的确不错,捡到宝了
-
系统 取消固定了该主题
-
Zhou,请教一下,HauhauCS 27B Aggressive llama.cpp 是怎样配置视觉参数的呢?我问了gemini和豆包,都是不带视觉的。但是询问他们俩关于比较新的第三方模型,他们总是会出现幻觉
@demo 记得是通过加载mmproj 启用视觉, 但是mmproj 和MTP没办法同时开,后面没用这个模型。
推荐vllm跑https://huggingface.co/llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GPTQ-Int4 , 这个有视觉, 我一直跑着,很稳定。
4080 32G启动参数:exec /data/vllm-env/bin/vllm serve /data/models/heretic-gptq-int4 \ --served-model-name 4080 \ --port 8002 \ --max-model-len 262144 \ --max-num-seqs 1 \ --gpu-memory-utilization 0.96 \ --enable-prefix-caching \ --kv-cache-dtype fp8 \ --trust-remote-code \ --reasoning-parser qwen3 \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder \ --speculative-config '{"method":"mtp","num_speculative_tokens":3}' -
@demo 记得是通过加载mmproj 启用视觉, 但是mmproj 和MTP没办法同时开,后面没用这个模型。
推荐vllm跑https://huggingface.co/llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GPTQ-Int4 , 这个有视觉, 我一直跑着,很稳定。
4080 32G启动参数:exec /data/vllm-env/bin/vllm serve /data/models/heretic-gptq-int4 \ --served-model-name 4080 \ --port 8002 \ --max-model-len 262144 \ --max-num-seqs 1 \ --gpu-memory-utilization 0.96 \ --enable-prefix-caching \ --kv-cache-dtype fp8 \ --trust-remote-code \ --reasoning-parser qwen3 \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder \ --speculative-config '{"method":"mtp","num_speculative_tokens":3}'@Michael-Zhou 哈,我昨天也是安装了这位大佬的另外一个模型https://huggingface.co/llmfan46/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-GPTQ-Int4,暂时使用也是稳定,速度还不错。我4080S32G。
简单爆测结果:Qwen3.6-27B-GPTQ-Int4 @ RTX 4080 SUPER | 指标 | 数值 | |------------------------|----------------------------------------------| | 吐字速度 | ~56 tok/s | | 包含 thinking 推理 | 544 tokens / 9.6s | | 去 thinking 纯有效输出 | 看你 prompt 带不带 [SYSTEM: No reasoning] |
