抡锤者

AresROC

来交作业了。分享一下在双卡 RTX 5060Ti Blackwell GPU 上使用 vLLM 和 LM Studio (LMS) 的实际使用体验与性能测试。

结论先行 (TL;DR)
LM Studio (Split 模式): 理论测试可达 46~50 token/s，实际使用（Real Use）中约为 26~36 t/s。

vLLM TP (Tensor Parallel) 模式: 测试表现为 35~78 token/s，至于实际体验如何？我们在后文详细拆解。

测试硬件环境: 双显卡均运行在 Intel CPU 平台上，运行在 PCIe 3.0 x8 通道下。

vLLM 核心配置参数
当前运行 vLLM 服务的完整启动命令如下：
--model Qwen3.6-27B-Text-NVFP4-MTP
--gpu-memory-utilization 0.95
--max-model-len 64000
--enable-auto-tool-choice
--tool-call-parser qwen3_xml
--tensor-parallel-size 2
--language-model-only
--kv-cache-dtype fp8
--max-num-seqs 1
--max-num-batched-tokens 8192
--trust-remote-code
--enable-prefix-caching
--enable-chunked-prefill
--no-scheduler-reserve-full-isl
--speculative-config '{"method":"mtp","num_speculative_tokens":3}'

体验总结
LM Studio: 部署极其简单，开箱即用，但整体速度较慢。

vLLM: 性能强劲，但显存占用（Memory footprint）明显更高，且由于显存开销，可分配的上下文长度（Context）会有所受限。

基准测试数据 (Benchmark Results)测试命令: uvx llama-benchy --base-url http://localhost:8000/v1 --model Text-NVFP4-MTP
测试共独立运行 3 次，详细数据如下：

model	test	t/s	peak t/s	ttfr (ms)	est_ppt (ms)	e2e_ttft (ms)
/home/api/AiModel/Text-NVFP4-MTP	pp2048	1729.27 ± 19.59		1186.49 ± 13.32	1185.04 ± 13.32	1186.49 ± 13.32
/home/api/AiModel/Text-NVFP4-MTP	tg32	61.80 ± 7.58	63.80 ± 7.82
:---------------------------------	-------:	-----------------:	-------------:	-----------------:	-----------------:	-----------------:
/home/api/AiModel/Text-NVFP4-MTP	pp2048	1415.00 ± 227.76		1488.69 ± 247.80	1487.23 ± 247.80	1488.69 ± 247.80
/home/api/AiModel/Text-NVFP4-MTP	tg32	74.86 ± 4.30	77.29 ± 4.44
:---------------------------------	-------:	----------------:	-------------:	----------------:	----------------:	----------------:
/home/api/AiModel/Text-NVFP4-MTP	pp2048	1735.72 ± 18.16		1182.07 ± 12.30	1180.62 ± 12.30	1182.07 ± 12.30
/home/api/AiModel/Text-NVFP4-MTP	tg32	65.26 ± 5.31	67.37 ± 5.48

Agent 场景优化配置 (Hermes Agent Setup)
如果在 Agent 场景下运行，为了防止显存碎片化导致 OOM，建议加入环境变量：
export PYTORCH_CUDA_ALLOC_CONF="expandable_segments:True"

Hermes Agent Setup: 同时对 vLLM 参数进行微调（主要调小了 max-num-batched-tokens 并在启动时控制利用率）：
--model ~/AiModel/Text-NVFP4-MTP
--gpu-memory-utilization 0.90
--max-model-len 64000
--enable-auto-tool-choice
--tool-call-parser qwen3_xml
--tensor-parallel-size 2
--language-model-only
--kv-cache-dtype fp8
--max-num-seqs 1
--max-num-batched-tokens 2048
--trust-remote-code
--enable-prefix-caching
--enable-chunked-prefill
--no-scheduler-reserve-full-isl
--speculative-config '{"method":"mtp","num_speculative_tokens":3}'

性能归纳与关键解读 (Notes)
NVFP4 量化优势: Blackwell 架构原生支持的 NVFP4 量化非常优秀，在保持极高模型精度的同时，效果明显好于传统的 Q4_K_M 等量化方案。

MTP (Multi-Token Prediction) 投机采样: 即便在没有 NVLink 的双卡环境下，MTP 也能带来很好的速度收益。虽然目前 Turboquant 还不支持它，但配合 vLLM 时，Prefill (pp) 阶段的速度已经足够快，不再是瓶颈。

上下文与吞吐量关联测试汇总
通过调整不同的最大上下文（Context），我们观察了 Prefill (pp2048) 和 Token Generation (tg32) 的吞吐量变化：

Ctx (上下文)	pp2048 (t/s)	tg32 (t/s)	Quant (量化)	MTP	KV Cache
32768	1819	35	NVFP4	NO (关闭)	FP8
64000	1631	81	NVFP4	3	FP8
98304	1734	78	NVFP4	3	FP8
131072	1736	75	NVFP4	3	FP8

观察: 从表中第 1 行可以看出，当关闭 MTP 时，tg32 的生成速度直接从 81 t/s 跌至 35 t/s。这强力证明了即使在 PCIe 3.0 x8 的带宽限制下，开启 MTP 投机采样依然能让生成效率翻倍。
目前模型不支持 TurboQuant，或需配置 vLLM，不过 FP8 的速度看起来还行

AresROC

好吧，出来吹吹。286 8MHz 640k要多加384K的記憶體，還要一颗一颗自己插到主機板上。DOS + UNIX + FreeBSD。IBM加速显卡价钱可以买到一台新车。TSENG Diamond SpeedStar 出来大家惊为天人。Riva128 后来才出生。
说实在品牌不要看得太重，同一个品牌也有好有坏。个人适合就行了。

AresROC

@terry 好的，我做了RTX 5070 Ti加上RTX 5060 Ti 16GB. PCIe 3.0x4 Bus. Qwen3.6-27b 速度还可以Q4有26.7 Token/s。LmStudio会把大部分记忆体放在5070 T I上。

單卡3090 Q4得到35 Token/s. Power limit 80%让记忆体温度低一点先不然会升到105度C

我也是50+看到你今天的视频有提到

目前只是搞windows加上LMStudio。日后改进Linux加上vLLM或别的。还会搞ComfyUi。

我找到一个电脑可以塞這两个3090。我會想辦法先測試一下再等NvL ink到货。

AresROC

使用 Llama-Benchy 对 vLLM tp 2 进行测试. MTP , ctx 128k:

没想到 Qwen3.6 27B Int4 能达到这样的运行速度。还没买 NvLink , 用PCIx 3.0x8

vLLM 主要参数
--max-model-len 131072
--tensor-parallel-size 2
--kv-cache-dtype fp8_e5m2
--max-num-batched-tokens 4128
--speculative-config '{"method":"mtp","num_speculative_tokens":3}'

大家都用什么Bench测试？

AresROC

卡终于到货。等到天荒地老..。
马上把双卡插进去，测试.

历尽星霜岁月长，天荒地老守3090。
苍天有眼怜痴客， 5060Ti双剑合璧试锋芒！

觉得很可以用。用电少。不发热 ~ MTP TG 50 t/s

通常可以跑到30 tk/s. 用 Q6_K Ctx 96k 比 Q4_K_M Ctx128k 还快.

LM Studio Split:
3090:

5060Ti:

Q6_K 96k 显存几乎用满了

AresROC

今天花了一整天時間在 Ubuntu 上安裝 SGLang

目前在 Qwen 9B 上可以正常運作：
python -m sglang.launch_server --model-path ~/AiModel/Qwen3.5-9B --host 0.0.0.0 --port 8000 --mem-fraction-static 0.8 --context-length 16384 --reasoning-parser qwen3 --kv-cache-dtype auto

目前大概能达到 40 个Token/s

還需在 Qwen 27B AWQ 進行一些設定。

vllm安装更容易 ~
各位大神有什么秘诀吗？请赐教！

AresROC

@stakira 今天才收到其中一張RTX 5060Ti，另外一張要等個星期。

明天計劃收購兩個R T X 3090 希望成功到手試試。

實際測試方法還要研究研究。傷腦筋還要搞個NvLink。。。

AresROC

我目前能做到的極限了。可以加載，但無法運行:

python3 -m sglang.launch_server
--model-path Qwen3.6-27B-AWQ
--host 0.0.0.0
--port 8000
--mem-fraction-static 0.85
--context-length 4096
--reasoning-parser qwen3
--tool-call-parser qwen3_coder
--dtype bfloat16
--max-running-requests 1
--tp 2

AresROC

RTX3090 更新记忆前后的散热。温度一定要看着点。

AresROC

抡锤者

AresROC

帖子