<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[技术分享：双卡 RTX 5060Ti Blackwell 运行 vLLM 与 LM Studio 性能实测报告]]></title><description><![CDATA[<p dir="auto">来交作业了。分享一下在双卡 RTX 5060Ti Blackwell GPU 上使用 vLLM 和 LM Studio (LMS) 的实际使用体验与性能测试。</p>
<p dir="auto">结论先行 (TL;DR)<br />
LM Studio (Split 模式): 理论测试可达 46~50 token/s，实际使用（Real Use）中约为 26~36 t/s。</p>
<p dir="auto">vLLM TP (Tensor Parallel) 模式: 测试表现为 35~78 token/s，至于实际体验如何？我们在后文详细拆解。</p>
<p dir="auto">测试硬件环境: 双显卡均运行在 Intel CPU 平台上，运行在 PCIe 3.0 x8 通道下。</p>
<p dir="auto">vLLM 核心配置参数<br />
当前运行 vLLM 服务的完整启动命令如下：<br />
--model Qwen3.6-27B-Text-NVFP4-MTP<br />
--gpu-memory-utilization 0.95<br />
--max-model-len 64000<br />
--enable-auto-tool-choice<br />
--tool-call-parser qwen3_xml<br />
--tensor-parallel-size 2<br />
--language-model-only<br />
--kv-cache-dtype fp8<br />
--max-num-seqs 1<br />
--max-num-batched-tokens 8192<br />
--trust-remote-code<br />
--enable-prefix-caching<br />
--enable-chunked-prefill<br />
--no-scheduler-reserve-full-isl<br />
--speculative-config '{"method":"mtp","num_speculative_tokens":3}'</p>
<p dir="auto">体验总结<br />
LM Studio: 部署极其简单，开箱即用，但整体速度较慢。</p>
<p dir="auto">vLLM: 性能强劲，但显存占用（Memory footprint）明显更高，且由于显存开销，可分配的上下文长度（Context）会有所受限。</p>
<p dir="auto">基准测试数据 (Benchmark Results)测试命令: uvx llama-benchy --base-url <a href="http://localhost:8000/v1" rel="nofollow ugc">http://localhost:8000/v1</a> --model Text-NVFP4-MTP<br />
测试共独立运行 3 次，详细数据如下：</p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th style="text-align:left">model</th>
<th style="text-align:right">test</th>
<th style="text-align:right">t/s</th>
<th style="text-align:right">peak t/s</th>
<th style="text-align:right">ttfr (ms)</th>
<th style="text-align:right">est_ppt (ms)</th>
<th style="text-align:right">e2e_ttft (ms)</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:left">/home/api/AiModel/Text-NVFP4-MTP</td>
<td style="text-align:right">pp2048</td>
<td style="text-align:right">1729.27 ± 19.59</td>
<td style="text-align:right"></td>
<td style="text-align:right">1186.49 ± 13.32</td>
<td style="text-align:right">1185.04 ± 13.32</td>
<td style="text-align:right">1186.49 ± 13.32</td>
</tr>
<tr>
<td style="text-align:left">/home/api/AiModel/Text-NVFP4-MTP</td>
<td style="text-align:right">tg32</td>
<td style="text-align:right">61.80 ± 7.58</td>
<td style="text-align:right">63.80 ± 7.82</td>
<td style="text-align:right"></td>
<td style="text-align:right"></td>
<td style="text-align:right"></td>
</tr>
</tbody>
<tbody>
<tr>
<td style="text-align:left">:---------------------------------</td>
<td style="text-align:right">-------:</td>
<td style="text-align:right">-----------------:</td>
<td style="text-align:right">-------------:</td>
<td style="text-align:right">-----------------:</td>
<td style="text-align:right">-----------------:</td>
<td style="text-align:right">-----------------:</td>
</tr>
<tr>
<td style="text-align:left">/home/api/AiModel/Text-NVFP4-MTP</td>
<td style="text-align:right">pp2048</td>
<td style="text-align:right">1415.00 ± 227.76</td>
<td style="text-align:right"></td>
<td style="text-align:right">1488.69 ± 247.80</td>
<td style="text-align:right">1487.23 ± 247.80</td>
<td style="text-align:right">1488.69 ± 247.80</td>
</tr>
<tr>
<td style="text-align:left">/home/api/AiModel/Text-NVFP4-MTP</td>
<td style="text-align:right">tg32</td>
<td style="text-align:right">74.86 ± 4.30</td>
<td style="text-align:right">77.29 ± 4.44</td>
<td style="text-align:right"></td>
<td style="text-align:right"></td>
<td style="text-align:right"></td>
</tr>
</tbody>
<tbody>
<tr>
<td style="text-align:left">:---------------------------------</td>
<td style="text-align:right">-------:</td>
<td style="text-align:right">----------------:</td>
<td style="text-align:right">-------------:</td>
<td style="text-align:right">----------------:</td>
<td style="text-align:right">----------------:</td>
<td style="text-align:right">----------------:</td>
</tr>
<tr>
<td style="text-align:left">/home/api/AiModel/Text-NVFP4-MTP</td>
<td style="text-align:right">pp2048</td>
<td style="text-align:right">1735.72 ± 18.16</td>
<td style="text-align:right"></td>
<td style="text-align:right">1182.07 ± 12.30</td>
<td style="text-align:right">1180.62 ± 12.30</td>
<td style="text-align:right">1182.07 ± 12.30</td>
</tr>
<tr>
<td style="text-align:left">/home/api/AiModel/Text-NVFP4-MTP</td>
<td style="text-align:right">tg32</td>
<td style="text-align:right">65.26 ± 5.31</td>
<td style="text-align:right">67.37 ± 5.48</td>
<td style="text-align:right"></td>
<td style="text-align:right"></td>
<td style="text-align:right"></td>
</tr>
</tbody>
</table>
<p dir="auto"><img src="https://upload.lcz.me/uploads/2d8a6190-41d4-4ee0-a277-14030a217869.jpeg" alt="36210a17-8f32-48b6-a2a2-d95da62a1edd-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">Agent 场景优化配置 (Hermes Agent Setup)<br />
如果在 Agent 场景下运行，为了防止显存碎片化导致 OOM，建议加入环境变量：<br />
export PYTORCH_CUDA_ALLOC_CONF="expandable_segments:True"</p>
<p dir="auto">Hermes Agent Setup: 同时对 vLLM 参数进行微调（主要调小了 max-num-batched-tokens 并在启动时控制利用率）：<br />
--model ~/AiModel/Text-NVFP4-MTP<br />
--gpu-memory-utilization 0.90<br />
--max-model-len 64000<br />
--enable-auto-tool-choice<br />
--tool-call-parser qwen3_xml<br />
--tensor-parallel-size 2<br />
--language-model-only<br />
--kv-cache-dtype fp8<br />
--max-num-seqs 1<br />
--max-num-batched-tokens 2048<br />
--trust-remote-code<br />
--enable-prefix-caching<br />
--enable-chunked-prefill<br />
--no-scheduler-reserve-full-isl<br />
--speculative-config '{"method":"mtp","num_speculative_tokens":3}'</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/3ae56b41-b268-4e2a-b339-d460a7ff0e9c.jpeg" alt="605380f0-75bb-4253-8044-7db9bdba68d5-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">性能归纳与关键解读 (Notes)<br />
NVFP4 量化优势: Blackwell 架构原生支持的 NVFP4 量化非常优秀，在保持极高模型精度的同时，效果明显好于传统的 Q4_K_M 等量化方案。</p>
<p dir="auto">MTP (Multi-Token Prediction) 投机采样: 即便在没有 NVLink 的双卡环境下，MTP 也能带来很好的速度收益。虽然目前 Turboquant 还不支持它，但配合 vLLM 时，Prefill (pp) 阶段的速度已经足够快，不再是瓶颈。</p>
<p dir="auto">上下文与吞吐量关联测试汇总<br />
通过调整不同的最大上下文（Context），我们观察了 Prefill (pp2048) 和 Token Generation (tg32) 的吞吐量变化：</p>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>Ctx (上下文)</th>
<th>pp2048 (t/s)</th>
<th>tg32 (t/s)</th>
<th>Quant (量化)</th>
<th>MTP</th>
<th>KV Cache</th>
</tr>
</thead>
<tbody>
<tr>
<td>32768</td>
<td>1819</td>
<td>35</td>
<td>NVFP4</td>
<td>NO (关闭)</td>
<td>FP8</td>
</tr>
<tr>
<td>64000</td>
<td>1631</td>
<td>81</td>
<td>NVFP4</td>
<td>3</td>
<td>FP8</td>
</tr>
<tr>
<td>98304</td>
<td>1734</td>
<td>78</td>
<td>NVFP4</td>
<td>3</td>
<td>FP8</td>
</tr>
<tr>
<td>131072</td>
<td>1736</td>
<td>75</td>
<td>NVFP4</td>
<td>3</td>
<td>FP8</td>
</tr>
</tbody>
</table>
<p dir="auto">观察: 从表中第 1 行可以看出，当关闭 MTP 时，tg32 的生成速度直接从 81 t/s 跌至 35 t/s。这强力证明了即使在 PCIe 3.0 x8 的带宽限制下，开启 MTP 投机采样依然能让生成效率翻倍。<br />
目前模型不支持 TurboQuant，或需配置 vLLM，不过 FP8 的速度看起来还行</p>
]]></description><link>https://lcz.me/topic/421/技术分享-双卡-rtx-5060ti-blackwell-运行-vllm-与-lm-studio-性能实测报告</link><generator>RSS for Node</generator><lastBuildDate>Sat, 06 Jun 2026 04:49:52 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/421.rss" rel="self" type="application/rss+xml"/><pubDate>Thu, 04 Jun 2026 05:52:45 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 技术分享：双卡 RTX 5060Ti Blackwell 运行 vLLM 与 LM Studio 性能实测报告 on Fri, 05 Jun 2026 05:24:01 GMT]]></title><description><![CDATA[<p dir="auto">楼主这个效果非常不错。看来买新不买旧非常有道理的。</p>
]]></description><link>https://lcz.me/post/5143</link><guid isPermaLink="true">https://lcz.me/post/5143</guid><dc:creator><![CDATA[JamesPhlao]]></dc:creator><pubDate>Fri, 05 Jun 2026 05:24:01 GMT</pubDate></item><item><title><![CDATA[Reply to 技术分享：双卡 RTX 5060Ti Blackwell 运行 vLLM 与 LM Studio 性能实测报告 on Thu, 04 Jun 2026 14:35:17 GMT]]></title><description><![CDATA[<p dir="auto">5060ti显存可以超到32GHz 估计tg会更快</p>
]]></description><link>https://lcz.me/post/5023</link><guid isPermaLink="true">https://lcz.me/post/5023</guid><dc:creator><![CDATA[kaifan]]></dc:creator><pubDate>Thu, 04 Jun 2026 14:35:17 GMT</pubDate></item><item><title><![CDATA[Reply to 技术分享：双卡 RTX 5060Ti Blackwell 运行 vLLM 与 LM Studio 性能实测报告 on Thu, 04 Jun 2026 13:29:07 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/applejuice" aria-label="Profile: applejuice">@<bdi>applejuice</bdi></a></p>
<p dir="auto">這個我也沒開過就是了</p>
]]></description><link>https://lcz.me/post/5015</link><guid isPermaLink="true">https://lcz.me/post/5015</guid><dc:creator><![CDATA[566656661]]></dc:creator><pubDate>Thu, 04 Jun 2026 13:29:07 GMT</pubDate></item><item><title><![CDATA[Reply to 技术分享：双卡 RTX 5060Ti Blackwell 运行 vLLM 与 LM Studio 性能实测报告 on Thu, 04 Jun 2026 13:27:37 GMT]]></title><description><![CDATA[<p dir="auto">"expandable_segments:True"</p>
<p dir="auto">3090 club 反而不用这个 我刚刚也拿掉了<br />
最近显卡一直假死</p>
]]></description><link>https://lcz.me/post/5014</link><guid isPermaLink="true">https://lcz.me/post/5014</guid><dc:creator><![CDATA[applejuice]]></dc:creator><pubDate>Thu, 04 Jun 2026 13:27:37 GMT</pubDate></item><item><title><![CDATA[Reply to 技术分享：双卡 RTX 5060Ti Blackwell 运行 vLLM 与 LM Studio 性能实测报告 on Thu, 04 Jun 2026 06:11:25 GMT]]></title><description><![CDATA[<p dir="auto">不错图文并茂，看起来发挥了50系列的特性。</p>
]]></description><link>https://lcz.me/post/4956</link><guid isPermaLink="true">https://lcz.me/post/4956</guid><dc:creator><![CDATA[terry]]></dc:creator><pubDate>Thu, 04 Jun 2026 06:11:25 GMT</pubDate></item><item><title><![CDATA[Reply to 技术分享：双卡 RTX 5060Ti Blackwell 运行 vLLM 与 LM Studio 性能实测报告 on Thu, 04 Jun 2026 17:30:47 GMT]]></title><description><![CDATA[<p dir="auto">性能对比补充：双卡 RTX 3090 Ampere 实测数据<br />
为了更清晰地评估 Blackwell 架构的提升幅度，这里将 双卡 RTX 3090 Ampere 的测试数据一并交作业。测试基于相同的软件安装环境，但运行在适配 Ampere 架构的旧版 CUDA 版本上。</p>
<p dir="auto">核心对比数据看板<br />
根据测试记录，双卡 RTX 3090 在不同配置（单卡、vLLM TP、LM Studio Split）下的表现如下：</p>
<p dir="auto"><img src="https://upload.lcz.me/uploads/0ca8377b-c5e3-4718-8ee8-3bce18e53141.jpeg" alt="c86d16cc-8f45-4f79-8f9b-a7137eaf19fb-image.jpeg" class=" img-fluid img-markdown" /></p>
<p dir="auto">关键技术解读与对比分析</p>
<ol>
<li>vLLM 架构下的极端释放<br />
在 vLLM 开启 Tensor Parallel (TP) 模式并配合 AutoRound Int4 量化时，双卡 RTX 3090 跑出了 112 t/s 的 Token 生成速度（tg32）。</li>
</ol>
<p dir="auto">虽然 Ampere 架构不支持 Blackwell 的 NVFP4，但在成熟的 Int4 优化和 24GB x2 充足显存的加持下，纯粹的吞吐量表现依然非常激进。</p>
<p dir="auto">此时 Prefill 速度（pp2048）为 1275 t/s，略低于 Blackwell 架构在相同或更长上下文下的表现（1600~1800 t/s）。</p>
<ol start="2">
<li>LM Studio (GGUF) 表现与真实场景<br />
在 LM Studio 环境下，使用单卡或 Split 模式运行 Qwen3.6-27B GGUF（结合 MTP 投机采样与 Flash Attention）：</li>
</ol>
<p dir="auto">Q4_K_M 量化: tg32 测试速度保持在 63~70 t/s 之间，而在真实的生产力场景（如 Q1 预热、Q2 效率测试、Q3 故事生成）中，实际输出稳定在 34~47 t/s 之间。</p>
<p dir="auto">Q6_K 量化: 在 98304 较长上下文时，真实场景（Real-world Use）输出依然能维持在 38~44 t/s。</p>
<ol start="3">
<li>带宽与架构的思考<br />
两套系统都受限于 PCIe 3.0 x8 通道，这在多卡通信（TP 模式）时会成为明显的瓶颈。</li>
</ol>
<p dir="auto">RTX 3090 (Ampere): 凭借其 384-bit 的高原生显存带宽（Memory Bandwidth），在处理传统量化（如 GGUF、Int4）的纯推理计算时展现出了极强的韧性。</p>
<p dir="auto">RTX 5060Ti (Blackwell): 虽然原生显存位宽较窄 (½ of RTX3090)，但凭借 NVFP4 计算密度的优势以及新一代张量核心（Tensor Cores）的效率，在极大节省显存的前提下，依然跑出了极其紧凑且高效的能效比。</p>
<p dir="auto">Example Config:<br />
--model Qwen3.6-27B-int4-AutoRound<br />
--gpu-memory-utilization 0.95<br />
--max-model-len 131072<br />
--enable-auto-tool-choice<br />
--tool-call-parser qwen3_xml<br />
--tensor-parallel-size 2<br />
--language-model-only<br />
--kv-cache-dtype fp8_e5m2<br />
--max-num-seqs 1<br />
--max-num-batched-tokens 4128<br />
--trust-remote-code<br />
--dtype bfloat16<br />
--enable-prefix-caching<br />
--enable-chunked-prefill<br />
--no-scheduler-reserve-full-isl<br />
--speculative-config '{"method":"mtp","num_speculative_tokens":3}'</p>
]]></description><link>https://lcz.me/post/4953</link><guid isPermaLink="true">https://lcz.me/post/4953</guid><dc:creator><![CDATA[AresROC]]></dc:creator><pubDate>Thu, 04 Jun 2026 17:30:47 GMT</pubDate></item></channel></rss>