4080&4090不同模型token性能测试

Michael Zhou

两块显卡：【RTX 4080 32GB】和【RTX 4090 48GB】，都接的显卡坞（x4@PCI-E 3）。最近完整看完了“老特抡锤者”频道的相关视频，也参考了论坛里各位大神的经验分享，随后针对不同模型、量化版本、上下文长度以及MTP 参数进行了多轮测试。把测试结果整理出来，供大家参考。

【20260529更新_2】

4090 / 4080 当前生产配置（亮点：Uncensored 模型驱动Hermes，什么活都不拒绝）

参数	4090	4080
GPU	RTX 4090 48GB (Ada)	RTX 4080 32GB (Ada)
框架	vLLM 0.21.0	vLLM 0.21.0
Service	`vllm-4090-27b-fp8`	`vllm-4080-heretic-gptq`
模型	官方 Qwen3.6-27B-FP8	llmfan46 Heretic v2 GPTQ-Int4
客户端用途	Claude Code	Hermes
Censored		uncensored (MPOA)
量化	FP8 E4M3 block 128×128	GPTQ-Int4 (Marlin)
KV dtype	fp8	fp8
max-model-len	262144 (256K)	262144 (256K)
max-num-seqs	1	1
gpu-mem-util	0.97	0.96
MTP s	5	3
tool-call-parser	qwen3_coder	qwen3_coder
reasoning-parser	qwen3	qwen3
prefix-caching
vision/video	内嵌	内嵌
bench tok/s	54.2	62.7
bench accept	54%	61%
实际场景	73-76 tok/s（高命中 99% accept）	接近一致

【20260529更新_1】

2ef49ea1-2f4f-4cb5-b5d4-fe083120ca98-微信图片_20260529102451_763_277.jpg

【先上图，证明不是云】

微信图片_20260525230946_630_277.jpg
微信图片_20260525230945_629_277.jpg

【平台信息】

类别	项	配置
机型	型号	HP Z4 G4 Workstation
	电源	750 W
CPU	型号	Intel Xeon W-2133
	主频	3.6 GHz
	核 / 线程	6 核 / 12 线程
内存	类型	DDR4
	容量	32 GB
GPU 0	型号	RTX 4090（魔改）
	显存	48 GB
	用途	主推理
GPU 1	型号	RTX 4080（魔改）
	显存	32 GB
	用途	副推理
GPU 2	型号	RTX 2080 Ti（魔改）
	显存	22 GB
	用途	ComfyUI
显存合计		102 GB
系统盘	类型	NVMe M.2 SSD
	容量	256 GB
数据盘	挂载点	`/data`
	容量	458 GB
系统	OS	Ubuntu 24.04 LTS
	内核	Linux 6.17.0-29-generic

【4090 token 性能历史】

时间	模型 + 后端	量化	ctx	MTP	视觉	单流 tok/s	并发 tok/s
2026-05-17	Qwen3.6-27B-FP8 vLLM	FP8 + FP8 KV	256K	s=3		37	—
2026-05-21	QuantTrio AWQ Dense vLLM	AWQ INT4 + FP8 KV	256K	s=3		81	208 (并发3)
2026-05-23 中	QuantTrio AWQ-6Bit vLLM	AWQ 6-bit	256K	s=3		68	124 (并发2, 反慢)
2026-05-23 中	QuantTrio 35B-A3B vLLM	AWQ INT4	256K	s=3		107	351 (并发5)
2026-05-23 晚	35B-A3B 无 MTP vLLM	AWQ INT4 + batched=16384	256K	关		145	337 (并发5)
2026-05-24	Qwen3.6-27B-FP8 vLLM	FP8 + FP8 KV + prefix-cache	256K	s=5		60.8	—
2026-05-24	Qwen3.6-27B-FP8 vLLM	同上	256K	s=7		63.8	—
2026-05-24	Qwen3.6-27B-FP8 vLLM	同上	256K	s=8		64.0（边际死）	—
2026-05-25	Heretic Q8 llama.cpp（试）	Q8 + q8_0 KV	256K	n=3		63.4	—
2026-05-25	Heretic Q8 llama.cpp（试）	同上	256K	n=5		66.5	—
2026-05-25	Heretic GPTQ-Int4 vLLM（失败）	GPTQ-Int4	256K	s=3	—	21（accept 1.25% broken）	—
2026-05-25	Heretic Q8 llama.cpp 当前 default	Q8 + q8_0 KV	256K	n=7		68.7	—

【4080 token 性能历史】

时间	模型 + 后端	量化	ctx	MTP	视觉	单流 tok/s
2026-05-09	QuantTrio AWQ Dense vLLM 0.20.1	AWQ INT4 + FP8 KV	128K	s=3		62.9
2026-05-11	同上 vLLM 0.20.2（regression）	AWQ INT4	128K	s=2		45.6
2026-05-22	HauhauCS 27B Aggressive llama.cpp	Q4_K_P GGUF	256K	无（mmproj 互斥）		32
2026-05-23	QuantTrio 35B-A3B vLLM	AWQ INT4 + FP8 KV + seqs=1	256K	无		106
2026-05-23	同上	同上	256K	s=1		77
2026-05-23	同上	同上	256K	s=2		93
2026-05-23	QuantTrio 35B-A3B vLLM	同上	256K	s=3		117
2026-05-24	SummonGov 27B-MTP graft Q6_K_P	GGUF + q8 KV	64K	n=1		40.1
2026-05-24	同上	同上	64K	n=2		50.1
2026-05-24	同上	同上	64K	n=3		55.7
2026-05-24	同上	同上	64K	n=5		58.9
2026-05-24	同上	同上	64K	n=7		55.3
2026-05-24	SummonGov 27B-MTP Q4_K_P	GGUF + q8 KV	64K	n=3		20.6（accept 2% broken）
2026-05-24	同上	同上	64K	n=5		62.5
2026-05-24	同上	同上	64K	n=7		56.8
2026-05-24	llmfan46 Heretic Q6_K llama.cpp	Q6_K + q8 KV	64K	n=3		57.0
2026-05-24	同上	同上	64K	n=5		61.6
2026-05-24	同上	同上	64K	n=7		56.5
2026-05-24	同上 q8_0 KV @ 256K	Q6_K + q8 KV	256K	n=5		OOM 差 836 MiB
2026-05-24	同上 q5_1 KV @ 256K	Q6_K + q5_1 KV	256K	n=5		慢（flash-attn 不兼容）
2026-05-24	同上 q5_0 KV @ 256K	Q6_K + q5_0 KV	256K	n=5		12（slow path）
2026-05-24	同上 iq4_nl KV @ 256K	Q6_K + iq4_nl KV	256K	n=5		26（slow path）
2026-05-24	Heretic GPTQ-Int4 vLLM（失败）	GPTQ INT4	256K	s=3	—	21（accept 1.25%）
2026-05-24	llmfan46 Heretic Q6_K llama.cpp 当前 default	Q6_K + q4_0 KV	256K	n=5		58-62

blackjack

多上几张机箱和拓展坞还有连接的图啊

rock shi · 2026-05-17

@Michael-Zhou 妈耶，感觉4080跟我3080差不多

williamlouis

感谢分享。棒棒哒。辛苦了兄弟。

Michael Zhou

@blackjack 明天找时间上图

terry

@Michael-Zhou 这个玩的有点让人热血澎湃，说真的我也挺羡慕的，

Groot Ace

有点无从下手啊怎么办呢？

Michael Zhou

@blackjack 图片更新了

terry

@Michael-Zhou 这台式机是安装了Oculink的PICE扩展卡？

blackjack

@Michael-Zhou 说:

@blackjack 图片更新了

非常感谢，人在日本啊

Michael Zhou

@blackjack 不在日本。图片是EDIX参展时拍的，估计大家喜欢看，就放上去了。

Michael Zhou

@terry 是的， PCIE x16的槽拆分成x4x4x4x4，PICE扩展卡能接4个显卡坞。

jenaflex

@Michael-Zhou 对大家（lsp）得口味把握精准哈哈哈哈
你得oculink卡是内置PLX拆分芯片，还是利用BIOS的Bifurcation？
好像记得Intel商用机工作站主板很少支持Bifurcation的，AMD EPYC主板支持的比较多

Michael Zhou

@jenaflex 转接卡上没有芯片，就是把PCIEx16分成4份直通出四个oculink口。用的BIOS的Bifurcation。主机是某宝入的二手HP Z4 G4 Workstation，支持PCIE拆分。

jenaflex

@Michael-Zhou 哇塞，自带拆分，那的确不错，捡到宝了

demo

Zhou，请教一下，HauhauCS 27B Aggressive llama.cpp 是怎样配置视觉参数的呢？我问了gemini和豆包，都是不带视觉的。但是询问他们俩关于比较新的第三方模型，他们总是会出现幻觉

Michael Zhou

@demo 记得是通过加载mmproj 启用视觉，但是mmproj 和MTP没办法同时开，后面没用这个模型。
推荐vllm跑https://huggingface.co/llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GPTQ-Int4 ，这个有视觉，我一直跑着，很稳定。
4080 32G启动参数：

exec /data/vllm-env/bin/vllm serve /data/models/heretic-gptq-int4 \
    --served-model-name 4080 \
    --port 8002 \
    --max-model-len 262144 \
    --max-num-seqs 1 \
    --gpu-memory-utilization 0.96 \
    --enable-prefix-caching \
    --kv-cache-dtype fp8 \
    --trust-remote-code \
    --reasoning-parser qwen3 \
    --enable-auto-tool-choice \
    --tool-call-parser qwen3_coder \
    --speculative-config '{"method":"mtp","num_speculative_tokens":3}'

demo

@Michael-Zhou 哈，我昨天也是安装了这位大佬的另外一个模型https://huggingface.co/llmfan46/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-GPTQ-Int4，暂时使用也是稳定，速度还不错。我4080S32G。
简单爆测结果：

Qwen3.6-27B-GPTQ-Int4 @ RTX 4080 SUPER

| 指标                   | 数值                                         |
|------------------------|----------------------------------------------|
| 吐字速度               | ~56 tok/s                                    |
| 包含 thinking 推理     | 544 tokens / 9.6s                            |
| 去 thinking 纯有效输出 | 看你 prompt 带不带 [SYSTEM: No reasoning]    |

用户名违规

4090-FP8-无MTP能跑37token？这不科学呀。是不是我看错了？我顶天就32t/s，是不是我哪里设置不对呀。

terry

@倭寇国を滅ぼす你的名字违规了，改一个。