Reply to 技术分享：双卡 RTX 5060Ti Blackwell 运行 vLLM 与 LM Studio 性能实测报告 on Fri, 05 Jun 2026 05:24:01 GMT

JamesPhlao — Fri, 05 Jun 2026 05:24:01 GMT

楼主这个效果非常不错。看来买新不买旧非常有道理的。

Reply to 技术分享：双卡 RTX 5060Ti Blackwell 运行 vLLM 与 LM Studio 性能实测报告 on Thu, 04 Jun 2026 14:35:17 GMT

kaifan — Thu, 04 Jun 2026 14:35:17 GMT

5060ti显存可以超到32GHz 估计tg会更快

Reply to 技术分享：双卡 RTX 5060Ti Blackwell 运行 vLLM 与 LM Studio 性能实测报告 on Thu, 04 Jun 2026 13:29:07 GMT

566656661 — Thu, 04 Jun 2026 13:29:07 GMT

@applejuice

這個我也沒開過就是了

Reply to 技术分享：双卡 RTX 5060Ti Blackwell 运行 vLLM 与 LM Studio 性能实测报告 on Thu, 04 Jun 2026 13:27:37 GMT

applejuice — Thu, 04 Jun 2026 13:27:37 GMT

"expandable_segments:True"

3090 club 反而不用这个我刚刚也拿掉了
最近显卡一直假死

Reply to 技术分享：双卡 RTX 5060Ti Blackwell 运行 vLLM 与 LM Studio 性能实测报告 on Thu, 04 Jun 2026 06:11:25 GMT

terry — Thu, 04 Jun 2026 06:11:25 GMT

不错图文并茂，看起来发挥了50系列的特性。

Reply to 技术分享：双卡 RTX 5060Ti Blackwell 运行 vLLM 与 LM Studio 性能实测报告 on Thu, 04 Jun 2026 17:30:47 GMT

AresROC — Thu, 04 Jun 2026 17:30:47 GMT

性能对比补充：双卡 RTX 3090 Ampere 实测数据
为了更清晰地评估 Blackwell 架构的提升幅度，这里将双卡 RTX 3090 Ampere 的测试数据一并交作业。测试基于相同的软件安装环境，但运行在适配 Ampere 架构的旧版 CUDA 版本上。

核心对比数据看板
根据测试记录，双卡 RTX 3090 在不同配置（单卡、vLLM TP、LM Studio Split）下的表现如下：

关键技术解读与对比分析

vLLM 架构下的极端释放
在 vLLM 开启 Tensor Parallel (TP) 模式并配合 AutoRound Int4 量化时，双卡 RTX 3090 跑出了 112 t/s 的 Token 生成速度（tg32）。

虽然 Ampere 架构不支持 Blackwell 的 NVFP4，但在成熟的 Int4 优化和 24GB x2 充足显存的加持下，纯粹的吞吐量表现依然非常激进。

此时 Prefill 速度（pp2048）为 1275 t/s，略低于 Blackwell 架构在相同或更长上下文下的表现（1600~1800 t/s）。

LM Studio (GGUF) 表现与真实场景
在 LM Studio 环境下，使用单卡或 Split 模式运行 Qwen3.6-27B GGUF（结合 MTP 投机采样与 Flash Attention）：

Q4_K_M 量化: tg32 测试速度保持在 63~70 t/s 之间，而在真实的生产力场景（如 Q1 预热、Q2 效率测试、Q3 故事生成）中，实际输出稳定在 34~47 t/s 之间。

Q6_K 量化: 在 98304 较长上下文时，真实场景（Real-world Use）输出依然能维持在 38~44 t/s。

带宽与架构的思考
两套系统都受限于 PCIe 3.0 x8 通道，这在多卡通信（TP 模式）时会成为明显的瓶颈。

RTX 3090 (Ampere): 凭借其 384-bit 的高原生显存带宽（Memory Bandwidth），在处理传统量化（如 GGUF、Int4）的纯推理计算时展现出了极强的韧性。

RTX 5060Ti (Blackwell): 虽然原生显存位宽较窄 (½ of RTX3090)，但凭借 NVFP4 计算密度的优势以及新一代张量核心（Tensor Cores）的效率，在极大节省显存的前提下，依然跑出了极其紧凑且高效的能效比。

Example Config:
--model Qwen3.6-27B-int4-AutoRound
--gpu-memory-utilization 0.95
--max-model-len 131072
--enable-auto-tool-choice
--tool-call-parser qwen3_xml
--tensor-parallel-size 2
--language-model-only
--kv-cache-dtype fp8_e5m2
--max-num-seqs 1
--max-num-batched-tokens 4128
--trust-remote-code
--dtype bfloat16
--enable-prefix-caching
--enable-chunked-prefill
--no-scheduler-reserve-full-isl
--speculative-config '{"method":"mtp","num_speculative_tokens":3}'