抡锤者

AresROC

我试过双卡3090 850w 电源不够用的。加一个650w以上电源试试就知道了。现在用的是1200w

AresROC

@xiaote 计算双卡 5060Ti 16GB 的张量并行（Tensor Parallel）模式下的算力，它相当于哪款单显卡？

AresROC

性能对比补充：双卡 RTX 3090 Ampere 实测数据
为了更清晰地评估 Blackwell 架构的提升幅度，这里将双卡 RTX 3090 Ampere 的测试数据一并交作业。测试基于相同的软件安装环境，但运行在适配 Ampere 架构的旧版 CUDA 版本上。

核心对比数据看板
根据测试记录，双卡 RTX 3090 在不同配置（单卡、vLLM TP、LM Studio Split）下的表现如下：

关键技术解读与对比分析

vLLM 架构下的极端释放
在 vLLM 开启 Tensor Parallel (TP) 模式并配合 AutoRound Int4 量化时，双卡 RTX 3090 跑出了 112 t/s 的 Token 生成速度（tg32）。

虽然 Ampere 架构不支持 Blackwell 的 NVFP4，但在成熟的 Int4 优化和 24GB x2 充足显存的加持下，纯粹的吞吐量表现依然非常激进。

此时 Prefill 速度（pp2048）为 1275 t/s，略低于 Blackwell 架构在相同或更长上下文下的表现（1600~1800 t/s）。

LM Studio (GGUF) 表现与真实场景
在 LM Studio 环境下，使用单卡或 Split 模式运行 Qwen3.6-27B GGUF（结合 MTP 投机采样与 Flash Attention）：

Q4_K_M 量化: tg32 测试速度保持在 63~70 t/s 之间，而在真实的生产力场景（如 Q1 预热、Q2 效率测试、Q3 故事生成）中，实际输出稳定在 34~47 t/s 之间。

Q6_K 量化: 在 98304 较长上下文时，真实场景（Real-world Use）输出依然能维持在 38~44 t/s。

带宽与架构的思考
两套系统都受限于 PCIe 3.0 x8 通道，这在多卡通信（TP 模式）时会成为明显的瓶颈。

RTX 3090 (Ampere): 凭借其 384-bit 的高原生显存带宽（Memory Bandwidth），在处理传统量化（如 GGUF、Int4）的纯推理计算时展现出了极强的韧性。

RTX 5060Ti (Blackwell): 虽然原生显存位宽较窄 (½ of RTX3090)，但凭借 NVFP4 计算密度的优势以及新一代张量核心（Tensor Cores）的效率，在极大节省显存的前提下，依然跑出了极其紧凑且高效的能效比。

Example Config:
--model Qwen3.6-27B-int4-AutoRound
--gpu-memory-utilization 0.95
--max-model-len 131072
--enable-auto-tool-choice
--tool-call-parser qwen3_xml
--tensor-parallel-size 2
--language-model-only
--kv-cache-dtype fp8_e5m2
--max-num-seqs 1
--max-num-batched-tokens 4128
--trust-remote-code
--dtype bfloat16
--enable-prefix-caching
--enable-chunked-prefill
--no-scheduler-reserve-full-isl
--speculative-config '{"method":"mtp","num_speculative_tokens":3}'

AresROC

来交作业了。分享一下在双卡 RTX 5060Ti Blackwell GPU 上使用 vLLM 和 LM Studio (LMS) 的实际使用体验与性能测试。

结论先行 (TL;DR)
LM Studio (Split 模式): 理论测试可达 46~50 token/s，实际使用（Real Use）中约为 26~36 t/s。

vLLM TP (Tensor Parallel) 模式: 测试表现为 35~78 token/s，至于实际体验如何？我们在后文详细拆解。

测试硬件环境: 双显卡均运行在 Intel CPU 平台上，运行在 PCIe 3.0 x8 通道下。

vLLM 核心配置参数
当前运行 vLLM 服务的完整启动命令如下：
--model Qwen3.6-27B-Text-NVFP4-MTP
--gpu-memory-utilization 0.95
--max-model-len 64000
--enable-auto-tool-choice
--tool-call-parser qwen3_xml
--tensor-parallel-size 2
--language-model-only
--kv-cache-dtype fp8
--max-num-seqs 1
--max-num-batched-tokens 8192
--trust-remote-code
--enable-prefix-caching
--enable-chunked-prefill
--no-scheduler-reserve-full-isl
--speculative-config '{"method":"mtp","num_speculative_tokens":3}'

体验总结
LM Studio: 部署极其简单，开箱即用，但整体速度较慢。

vLLM: 性能强劲，但显存占用（Memory footprint）明显更高，且由于显存开销，可分配的上下文长度（Context）会有所受限。

基准测试数据 (Benchmark Results)测试命令: uvx llama-benchy --base-url http://localhost:8000/v1 --model Text-NVFP4-MTP
测试共独立运行 3 次，详细数据如下：

model	test	t/s	peak t/s	ttfr (ms)	est_ppt (ms)	e2e_ttft (ms)
/home/api/AiModel/Text-NVFP4-MTP	pp2048	1729.27 ± 19.59		1186.49 ± 13.32	1185.04 ± 13.32	1186.49 ± 13.32
/home/api/AiModel/Text-NVFP4-MTP	tg32	61.80 ± 7.58	63.80 ± 7.82
:---------------------------------	-------:	-----------------:	-------------:	-----------------:	-----------------:	-----------------:
/home/api/AiModel/Text-NVFP4-MTP	pp2048	1415.00 ± 227.76		1488.69 ± 247.80	1487.23 ± 247.80	1488.69 ± 247.80
/home/api/AiModel/Text-NVFP4-MTP	tg32	74.86 ± 4.30	77.29 ± 4.44
:---------------------------------	-------:	----------------:	-------------:	----------------:	----------------:	----------------:
/home/api/AiModel/Text-NVFP4-MTP	pp2048	1735.72 ± 18.16		1182.07 ± 12.30	1180.62 ± 12.30	1182.07 ± 12.30
/home/api/AiModel/Text-NVFP4-MTP	tg32	65.26 ± 5.31	67.37 ± 5.48

Agent 场景优化配置 (Hermes Agent Setup)
如果在 Agent 场景下运行，为了防止显存碎片化导致 OOM，建议加入环境变量：
export PYTORCH_CUDA_ALLOC_CONF="expandable_segments:True"

Hermes Agent Setup: 同时对 vLLM 参数进行微调（主要调小了 max-num-batched-tokens 并在启动时控制利用率）：
--model ~/AiModel/Text-NVFP4-MTP
--gpu-memory-utilization 0.90
--max-model-len 64000
--enable-auto-tool-choice
--tool-call-parser qwen3_xml
--tensor-parallel-size 2
--language-model-only
--kv-cache-dtype fp8
--max-num-seqs 1
--max-num-batched-tokens 2048
--trust-remote-code
--enable-prefix-caching
--enable-chunked-prefill
--no-scheduler-reserve-full-isl
--speculative-config '{"method":"mtp","num_speculative_tokens":3}'

性能归纳与关键解读 (Notes)
NVFP4 量化优势: Blackwell 架构原生支持的 NVFP4 量化非常优秀，在保持极高模型精度的同时，效果明显好于传统的 Q4_K_M 等量化方案。

MTP (Multi-Token Prediction) 投机采样: 即便在没有 NVLink 的双卡环境下，MTP 也能带来很好的速度收益。虽然目前 Turboquant 还不支持它，但配合 vLLM 时，Prefill (pp) 阶段的速度已经足够快，不再是瓶颈。

上下文与吞吐量关联测试汇总
通过调整不同的最大上下文（Context），我们观察了 Prefill (pp2048) 和 Token Generation (tg32) 的吞吐量变化：

Ctx (上下文)	pp2048 (t/s)	tg32 (t/s)	Quant (量化)	MTP	KV Cache
32768	1819	35	NVFP4	NO (关闭)	FP8
64000	1631	81	NVFP4	3	FP8
98304	1734	78	NVFP4	3	FP8
131072	1736	75	NVFP4	3	FP8

观察: 从表中第 1 行可以看出，当关闭 MTP 时，tg32 的生成速度直接从 81 t/s 跌至 35 t/s。这强力证明了即使在 PCIe 3.0 x8 的带宽限制下，开启 MTP 投机采样依然能让生成效率翻倍。
目前模型不支持 TurboQuant，或需配置 vLLM，不过 FP8 的速度看起来还行

AresROC

觉得是一个可以打PC游戏的Windows Mac Studio. 普及版的DGX Spark. 不知道以后会不会支援Linux.

AresROC

@kos-or 上面试的都是MTP=3。目前在研究FP4 & 升级CUDA 13.2，13.3。

AresROC

@terry 目前vllm Qwen3.6-27B 还是搞不定，假如成功的话再发

16+16=32GB 跑不了没有天理，
最近LmStudio出了 TP, 假如可以跑我也想试试

AresROC

卡终于到货。等到天荒地老..。
马上把双卡插进去，测试.

历尽星霜岁月长，天荒地老守3090。
苍天有眼怜痴客， 5060Ti双剑合璧试锋芒！

觉得很可以用。用电少。不发热 ~ MTP TG 50 t/s

通常可以跑到30 tk/s. 用 Q6_K Ctx 96k 比 Q4_K_M Ctx128k 还快.

LM Studio Split:
3090:

5060Ti:

Q6_K 96k 显存几乎用满了

AresROC

使用 Llama-Benchy 对 vLLM tp 2 进行测试. MTP , ctx 128k:

没想到 Qwen3.6 27B Int4 能达到这样的运行速度。还没买 NvLink , 用PCIx 3.0x8

vLLM 主要参数
--max-model-len 131072
--tensor-parallel-size 2
--kv-cache-dtype fp8_e5m2
--max-num-batched-tokens 4128
--speculative-config '{"method":"mtp","num_speculative_tokens":3}'

大家都用什么Bench测试？

AresROC

换个Qwen3.6 A3B MOE 模型，还是可以用的

AresROC

据我了解群聊用Discord比较方便，容易管理。给他们开个群，我自己目前还没有用。一个一个搞就很麻烦了。

AresROC

vLLM 可以運行 32k 上下文，對於Agent用途來說還不錯，MTP速度為 50~60 tk/s @250w

--model ~/AiModel/int4-AutoRound
--gpu-memory-utilization 0.95
--max-model-len 32768
--enable-auto-tool-choice
--tool-call-parser qwen3_coder 0
--language-model-only
--host 0.0.0.0 --port 8000
--kv-cache-dtype fp8_e5m2
--max-num-seqs 1
--max-num-batched-tokens 4128
--trust-remote-code
--dtype bfloat16
--enable-prefix-caching
--enable-chunked-prefill
--no-scheduler-reserve-full-isl
--speculative-config '{"method":"mtp","num_speculative_tokens":3}'

AresROC

以不含 NVLink 的 PCI 3.0x8 雙道作為對比。 Hermes 96k 上下文大約是 52~55 t/s - Power Limit 250w. So 500w Total, ~46GB VRAM.

python -m vllm.entrypoints.openai.api_server
--model ~/AiModel/Qwen3.6-27B-AWQ-QuantTrio
--gpu-memory-utilization 0.95
--max-model-len 98304
--enable-auto-tool-choice
--tool-call-parser hermes
--tensor-parallel-size 2
--host 0.0.0.0
--port 8000

AresROC

讚一個。不錯Intel系統多是PCI Burification。CPU PCI Lane 给分开来。AMD PCI 5.0 x 16 CPU 但是第二卡 x4 用的是ChipSet 會有速度損失。

AresROC

oMLX Caching 可以提高prefill效率。
Mac 可以考虑量化Q5 VS Q4 减少量化损失

AresROC

CUDA 最好用13.1 以上 RTX5090. Bot @xiaote

AresROC

我目前能做到的極限了。可以加載，但無法運行:

python3 -m sglang.launch_server
--model-path Qwen3.6-27B-AWQ
--host 0.0.0.0
--port 8000
--mem-fraction-static 0.85
--context-length 4096
--reasoning-parser qwen3
--tool-call-parser qwen3_coder
--dtype bfloat16
--max-running-requests 1
--tp 2

AresROC

现在不翻译了: Qwen3.7-Max-Preview 说 Need more than 2x RTX3090 to run SGLang or find "AutoAWQ"

Use the Unquantized (BF16/FP16) Model
If you have enough VRAM across your 2 GPUs, you can run the full-precision model.
A 27B parameter model in BF16 requires roughly 54 GB of VRAM.
If your 2 GPUs are 24GB each (48GB total), this will OOM.
If your 2 GPUs are 30GB+ each (e.g., RTX A6000, L40S, or V100-32GB), you can download the unquantized BF16 version of the model and run it without any quantization flags.

GG - X]

AresROC

X] 自动翻译成代币 - 27b awq 我也想, 9b 已使 20GB VRAM!

AresROC

今天花了一整天時間在 Ubuntu 上安裝 SGLang

目前在 Qwen 9B 上可以正常運作：
python -m sglang.launch_server --model-path ~/AiModel/Qwen3.5-9B --host 0.0.0.0 --port 8000 --mem-fraction-static 0.8 --context-length 16384 --reasoning-parser qwen3 --kv-cache-dtype auto

目前大概能达到 40 个Token/s

還需在 Qwen 27B AWQ 進行一些設定。

vllm安装更容易 ~
各位大神有什么秘诀吗？请赐教！

抡锤者

AresROC

帖子