4080&4090不同模型token性能测试

terry

@Michael-Zhou 这台式机是安装了Oculink的PICE扩展卡？

blackjack

@Michael-Zhou 说:

@blackjack 图片更新了

非常感谢，人在日本啊

Michael Zhou

@blackjack 不在日本。图片是EDIX参展时拍的，估计大家喜欢看，就放上去了。

Michael Zhou

@terry 是的， PCIE x16的槽拆分成x4x4x4x4，PICE扩展卡能接4个显卡坞。

jenaflex

@Michael-Zhou 对大家（lsp）得口味把握精准哈哈哈哈
你得oculink卡是内置PLX拆分芯片，还是利用BIOS的Bifurcation？
好像记得Intel商用机工作站主板很少支持Bifurcation的，AMD EPYC主板支持的比较多

Michael Zhou

@jenaflex 转接卡上没有芯片，就是把PCIEx16分成4份直通出四个oculink口。用的BIOS的Bifurcation。主机是某宝入的二手HP Z4 G4 Workstation，支持PCIE拆分。

jenaflex

@Michael-Zhou 哇塞，自带拆分，那的确不错，捡到宝了

demo

Zhou，请教一下，HauhauCS 27B Aggressive llama.cpp 是怎样配置视觉参数的呢？我问了gemini和豆包，都是不带视觉的。但是询问他们俩关于比较新的第三方模型，他们总是会出现幻觉

Michael Zhou

@demo 记得是通过加载mmproj 启用视觉，但是mmproj 和MTP没办法同时开，后面没用这个模型。
推荐vllm跑https://huggingface.co/llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GPTQ-Int4 ，这个有视觉，我一直跑着，很稳定。
4080 32G启动参数：

exec /data/vllm-env/bin/vllm serve /data/models/heretic-gptq-int4 \
    --served-model-name 4080 \
    --port 8002 \
    --max-model-len 262144 \
    --max-num-seqs 1 \
    --gpu-memory-utilization 0.96 \
    --enable-prefix-caching \
    --kv-cache-dtype fp8 \
    --trust-remote-code \
    --reasoning-parser qwen3 \
    --enable-auto-tool-choice \
    --tool-call-parser qwen3_coder \
    --speculative-config '{"method":"mtp","num_speculative_tokens":3}'

demo

@Michael-Zhou 哈，我昨天也是安装了这位大佬的另外一个模型https://huggingface.co/llmfan46/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-GPTQ-Int4，暂时使用也是稳定，速度还不错。我4080S32G。
简单爆测结果：

Qwen3.6-27B-GPTQ-Int4 @ RTX 4080 SUPER

| 指标                   | 数值                                         |
|------------------------|----------------------------------------------|
| 吐字速度               | ~56 tok/s                                    |
| 包含 thinking 推理     | 544 tokens / 9.6s                            |
| 去 thinking 纯有效输出 | 看你 prompt 带不带 [SYSTEM: No reasoning]    |

用户名违规

4090-FP8-无MTP能跑37token？这不科学呀。是不是我看错了？我顶天就32t/s，是不是我哪里设置不对呀。

terry

@倭寇国を滅ぼす你的名字违规了，改一个。

stxpnet

那两个妹儿的微信有没有？

抡锤者

4080&4090不同模型token性能测试