跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI硬件
  3. 技术分享:双卡 RTX 5060Ti Blackwell 运行 vLLM 与 LM Studio 性能实测报告

技术分享:双卡 RTX 5060Ti Blackwell 运行 vLLM 与 LM Studio 性能实测报告

已定时 置顶直到 2026/6/6 06:10 已锁定 已移动 AI硬件
7 帖子 6 发布者 208 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • AresROCA 离线
    AresROCA 离线
    AresROC
    编写于 最后由 AresROC 编辑
    #1

    来交作业了。分享一下在双卡 RTX 5060Ti Blackwell GPU 上使用 vLLM 和 LM Studio (LMS) 的实际使用体验与性能测试。

    结论先行 (TL;DR)
    LM Studio (Split 模式): 理论测试可达 46~50 token/s,实际使用(Real Use)中约为 26~36 t/s。

    vLLM TP (Tensor Parallel) 模式: 测试表现为 35~78 token/s,至于实际体验如何?我们在后文详细拆解。

    测试硬件环境: 双显卡均运行在 Intel CPU 平台上,运行在 PCIe 3.0 x8 通道下。

    vLLM 核心配置参数
    当前运行 vLLM 服务的完整启动命令如下:
    --model Qwen3.6-27B-Text-NVFP4-MTP
    --gpu-memory-utilization 0.95
    --max-model-len 64000
    --enable-auto-tool-choice
    --tool-call-parser qwen3_xml
    --tensor-parallel-size 2
    --language-model-only
    --kv-cache-dtype fp8
    --max-num-seqs 1
    --max-num-batched-tokens 8192
    --trust-remote-code
    --enable-prefix-caching
    --enable-chunked-prefill
    --no-scheduler-reserve-full-isl
    --speculative-config '{"method":"mtp","num_speculative_tokens":3}'

    体验总结
    LM Studio: 部署极其简单,开箱即用,但整体速度较慢。

    vLLM: 性能强劲,但显存占用(Memory footprint)明显更高,且由于显存开销,可分配的上下文长度(Context)会有所受限。

    基准测试数据 (Benchmark Results)测试命令: uvx llama-benchy --base-url http://localhost:8000/v1 --model Text-NVFP4-MTP
    测试共独立运行 3 次,详细数据如下:

    model test t/s peak t/s ttfr (ms) est_ppt (ms) e2e_ttft (ms)
    /home/api/AiModel/Text-NVFP4-MTP pp2048 1729.27 ± 19.59 1186.49 ± 13.32 1185.04 ± 13.32 1186.49 ± 13.32
    /home/api/AiModel/Text-NVFP4-MTP tg32 61.80 ± 7.58 63.80 ± 7.82
    :--------------------------------- -------: -----------------: -------------: -----------------: -----------------: -----------------:
    /home/api/AiModel/Text-NVFP4-MTP pp2048 1415.00 ± 227.76 1488.69 ± 247.80 1487.23 ± 247.80 1488.69 ± 247.80
    /home/api/AiModel/Text-NVFP4-MTP tg32 74.86 ± 4.30 77.29 ± 4.44
    :--------------------------------- -------: ----------------: -------------: ----------------: ----------------: ----------------:
    /home/api/AiModel/Text-NVFP4-MTP pp2048 1735.72 ± 18.16 1182.07 ± 12.30 1180.62 ± 12.30 1182.07 ± 12.30
    /home/api/AiModel/Text-NVFP4-MTP tg32 65.26 ± 5.31 67.37 ± 5.48

    36210a17-8f32-48b6-a2a2-d95da62a1edd-image.jpeg

    Agent 场景优化配置 (Hermes Agent Setup)
    如果在 Agent 场景下运行,为了防止显存碎片化导致 OOM,建议加入环境变量:
    export PYTORCH_CUDA_ALLOC_CONF="expandable_segments:True"

    Hermes Agent Setup: 同时对 vLLM 参数进行微调(主要调小了 max-num-batched-tokens 并在启动时控制利用率):
    --model ~/AiModel/Text-NVFP4-MTP
    --gpu-memory-utilization 0.90
    --max-model-len 64000
    --enable-auto-tool-choice
    --tool-call-parser qwen3_xml
    --tensor-parallel-size 2
    --language-model-only
    --kv-cache-dtype fp8
    --max-num-seqs 1
    --max-num-batched-tokens 2048
    --trust-remote-code
    --enable-prefix-caching
    --enable-chunked-prefill
    --no-scheduler-reserve-full-isl
    --speculative-config '{"method":"mtp","num_speculative_tokens":3}'

    605380f0-75bb-4253-8044-7db9bdba68d5-image.jpeg

    性能归纳与关键解读 (Notes)
    NVFP4 量化优势: Blackwell 架构原生支持的 NVFP4 量化非常优秀,在保持极高模型精度的同时,效果明显好于传统的 Q4_K_M 等量化方案。

    MTP (Multi-Token Prediction) 投机采样: 即便在没有 NVLink 的双卡环境下,MTP 也能带来很好的速度收益。虽然目前 Turboquant 还不支持它,但配合 vLLM 时,Prefill (pp) 阶段的速度已经足够快,不再是瓶颈。

    上下文与吞吐量关联测试汇总
    通过调整不同的最大上下文(Context),我们观察了 Prefill (pp2048) 和 Token Generation (tg32) 的吞吐量变化:

    Ctx (上下文) pp2048 (t/s) tg32 (t/s) Quant (量化) MTP KV Cache
    32768 1819 35 NVFP4 NO (关闭) FP8
    64000 1631 81 NVFP4 3 FP8
    98304 1734 78 NVFP4 3 FP8
    131072 1736 75 NVFP4 3 FP8

    观察: 从表中第 1 行可以看出,当关闭 MTP 时,tg32 的生成速度直接从 81 t/s 跌至 35 t/s。这强力证明了即使在 PCIe 3.0 x8 的带宽限制下,开启 MTP 投机采样依然能让生成效率翻倍。
    目前模型不支持 TurboQuant,或需配置 vLLM,不过 FP8 的速度看起来还行

    1 条回复 最后回复
    3
    • AresROCA 离线
      AresROCA 离线
      AresROC
      编写于 最后由 AresROC 编辑
      #2

      性能对比补充:双卡 RTX 3090 Ampere 实测数据
      为了更清晰地评估 Blackwell 架构的提升幅度,这里将 双卡 RTX 3090 Ampere 的测试数据一并交作业。测试基于相同的软件安装环境,但运行在适配 Ampere 架构的旧版 CUDA 版本上。

      核心对比数据看板
      根据测试记录,双卡 RTX 3090 在不同配置(单卡、vLLM TP、LM Studio Split)下的表现如下:

      c86d16cc-8f45-4f79-8f9b-a7137eaf19fb-image.jpeg

      关键技术解读与对比分析

      1. vLLM 架构下的极端释放
        在 vLLM 开启 Tensor Parallel (TP) 模式并配合 AutoRound Int4 量化时,双卡 RTX 3090 跑出了 112 t/s 的 Token 生成速度(tg32)。

      虽然 Ampere 架构不支持 Blackwell 的 NVFP4,但在成熟的 Int4 优化和 24GB x2 充足显存的加持下,纯粹的吞吐量表现依然非常激进。

      此时 Prefill 速度(pp2048)为 1275 t/s,略低于 Blackwell 架构在相同或更长上下文下的表现(1600~1800 t/s)。

      1. LM Studio (GGUF) 表现与真实场景
        在 LM Studio 环境下,使用单卡或 Split 模式运行 Qwen3.6-27B GGUF(结合 MTP 投机采样与 Flash Attention):

      Q4_K_M 量化: tg32 测试速度保持在 63~70 t/s 之间,而在真实的生产力场景(如 Q1 预热、Q2 效率测试、Q3 故事生成)中,实际输出稳定在 34~47 t/s 之间。

      Q6_K 量化: 在 98304 较长上下文时,真实场景(Real-world Use)输出依然能维持在 38~44 t/s。

      1. 带宽与架构的思考
        两套系统都受限于 PCIe 3.0 x8 通道,这在多卡通信(TP 模式)时会成为明显的瓶颈。

      RTX 3090 (Ampere): 凭借其 384-bit 的高原生显存带宽(Memory Bandwidth),在处理传统量化(如 GGUF、Int4)的纯推理计算时展现出了极强的韧性。

      RTX 5060Ti (Blackwell): 虽然原生显存位宽较窄 (½ of RTX3090),但凭借 NVFP4 计算密度的优势以及新一代张量核心(Tensor Cores)的效率,在极大节省显存的前提下,依然跑出了极其紧凑且高效的能效比。

      Example Config:
      --model Qwen3.6-27B-int4-AutoRound
      --gpu-memory-utilization 0.95
      --max-model-len 131072
      --enable-auto-tool-choice
      --tool-call-parser qwen3_xml
      --tensor-parallel-size 2
      --language-model-only
      --kv-cache-dtype fp8_e5m2
      --max-num-seqs 1
      --max-num-batched-tokens 4128
      --trust-remote-code
      --dtype bfloat16
      --enable-prefix-caching
      --enable-chunked-prefill
      --no-scheduler-reserve-full-isl
      --speculative-config '{"method":"mtp","num_speculative_tokens":3}'

      1 条回复 最后回复
      0
      • terryT terry 固定了该主题
      • terryT 离线
        terryT 离线
        terry
        编写于 最后由 编辑
        #3

        不错图文并茂,看起来发挥了50系列的特性。

        油管:https://www.youtube.com/@抡锤者

        1 条回复 最后回复
        0
        • A 离线
          A 离线
          applejuice
          编写于 最后由 编辑
          #4

          "expandable_segments:True"

          3090 club 反而不用这个 我刚刚也拿掉了
          最近显卡一直假死

          5 1 条回复 最后回复
          0
          • A applejuice

            "expandable_segments:True"

            3090 club 反而不用这个 我刚刚也拿掉了
            最近显卡一直假死

            5 在线
            5 在线
            566656661
            编写于 最后由 编辑
            #5

            @applejuice

            這個我也沒開過就是了

            1 条回复 最后回复
            0
            • K 离线
              K 离线
              kaifan
              编写于 最后由 编辑
              #6

              5060ti显存可以超到32GHz 估计tg会更快

              1 条回复 最后回复
              0
              • JamesPhlaoJ 离线
                JamesPhlaoJ 离线
                JamesPhlao
                编写于 最后由 编辑
                #7

                楼主这个效果非常不错。看来买新不买旧非常有道理的。

                1 条回复 最后回复
                0

                你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                有了你的建议,这篇帖子会更精彩哦 💗

                注册 登录
                回复
                • 在新帖中回复
                登录后回复
                • 从旧到新
                • 从新到旧
                • 最多赞同


                • 登录

                • 没有帐号? 注册

                • 登录或注册以进行搜索。
                • 第一个帖子
                  最后一个帖子
                0
                • 版块
                • 最新
                • 标签
                • 热门
                • 用户
                • 群组