llama.cpp 双 RTX 3080 推理加速实测：Qwen3.6-27B 从 35 到 50 tok/s

Reply to llama.cpp 双 RTX 3080 推理加速实测：Qwen3.6-27B 从 35 到 50 tok/s on Wed, 27 May 2026 03:38:10 GMT

joker_chang — Wed, 27 May 2026 03:38:10 GMT

上面截图是我在真是工作场景下的各项指标。

Trae+Roo code调用本地qwen3.6 27B+MTP，开发一个工作中要用到的项目进度看板系统。

Reply to llama.cpp 双 RTX 3080 推理加速实测：Qwen3.6-27B 从 35 到 50 tok/s on Tue, 26 May 2026 10:56:11 GMT

rock shi — Tue, 26 May 2026 10:56:11 GMT

跟贴补充：多模态版 Qwen3.6-27B 测试（ubatch-768）

测试日期：2026.05.26

看到前面讨论 ubatch-size 加大能提 prompt 速度 —— 说个反直觉的发现：换了多模态版之后，ubatch 降到 768，生成速度反而没降反升。

背景

从纯文本版升级到多模态版（支持图片理解），模型文件从 1 个变成 3 个：

文件	大小
Qwen3.6-27B-Q4_K_M.gguf（主模型）	17GB
mmproj-Qwen_Qwen3.6-27B-f16.gguf（视觉编码器）	884MB
mtp-Qwen_Qwen3.6-27B-Q8_0.gguf（MTP 权重）	3GB

多了 4GB 权重，GPU1 从 17.2GB → 17.5GB，ubatch-size 从 2048 降到 768（1024 会 OOM）。

启动命令

CUDA_SCALE_LAUNCH_QUEUES=4 /home/simon/llama.cpp/build/bin/llama-server \
  -m /home/simon/models/Qwen3.6-27B-Q4_K_M.gguf \
  --mmproj /home/simon/models/mmproj-Qwen_Qwen3.6-27B-f16.gguf \
  -ngl 99 --host 127.0.0.1 --port 8082 -c 131072 --temp 0 \
  --spec-type draft-mtp,ngram-mod \
  --spec-draft-model /home/simon/models/mtp-Qwen_Qwen3.6-27B-Q8_0.gguf \
  --spec-draft-n-max 3 \
  --spec-ngram-mod-n-max 5 --spec-ngram-mod-n-min 3 \
  --ubatch-size 768 --batch-size 2048 \
  -fa on -ctk q4_0 -ctv q4_0

注意：多模态版需要额外指定 --mmproj 和 --spec-draft-model（MTP 权重单独文件）。

测试结果

每次冷加载后测三次取中值：

测试项	纯文本版（ubatch-2048）	多模态版（ubatch-768）	变化
Prompt 处理速度	50.17 tok/s	180~380 tok/s	受 prompt 长度影响
生成速度	53.18 tok/s	~55 tok/s	+3%
MTP 接受率	—	77~85%	—
GPU0 VRAM	16.1 GB	14.9 GB	↓
GPU1 VRAM	17.2 GB	17.5 GB	↑

几点观察

ubatch 降到 768 生成速度反而 54~55 tok/s，比之前 53 tok/s 略高。猜测是 MTP 权重在独立文件中布局更好，或者 ngram 互补起了作用。（也可能是测量误差范围，但同一天多次测试结果一致）
Prompt 速度有波动：短 prompt（17t）→ 28 tok/s，长 prompt（55t）→ 378 tok/s。受 CUDA kernel 启动开销影响，prompt 越长越接近纯文本版的 best case。
显存接近极限但并不需要紧张：GPU1 占 17.5GB/20GB，只要不上 ubatch-1024 就不会 OOM。128K 上下文也正常工作。
多 3 分钟调试时间成本，换来图片理解能力，性价比不错。

与之前结论的关系

之前建议 "ubatch-size 尽量拉大" —— 这个结论仍然成立，只是多模态版因额外文件占显存，需要降 ubatch 来腾空间。好消息是降 ubatch 对生成速度的影响微乎其微，主要牺牲的是首 token 延迟和 prompt 处理吞吐。

如果你也在跑多模态模型，建议 ubatch 从 512 开始试，慢慢加到 OOM 之前回退一格，生成速度不会吃亏。

Reply to llama.cpp 双 RTX 3080 推理加速实测：Qwen3.6-27B 从 35 到 50 tok/s on Tue, 26 May 2026 05:36:38 GMT

joker_chang — Tue, 26 May 2026 05:36:38 GMT

使用llama-b9329-bin-win-cuda-12.4-x64这个官方的Release
启动参数：
--reasoning off ^
--n-gpu-layers -1 ^
--ctx-size 131072 ^
--batch-size 2048 ^
--ubatch-size 1024 ^
--flash-attn on ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--spec-type draft-mtp,ngram-mod ^
--spec-draft-n-max 3 ^
--spec-ngram-mod-n-max 5 ^
--spec-ngram-mod-n-min 3 ^
--temp 0.7 ^
--parallel 1

处理一个128KB的md文件，日志：【
[34m3.11.560.628[0m [32mI [0msrv params_from_: Chat format: peg-native
[34m3.11.562.098[0m [32mI [0mslot get_availabl: id 0 | task -1 | selected slot by LRU, t_last = 101040854
[34m3.11.562.100[0m [32mI [0msrv get_availabl: updating prompt cache
[34m3.11.564.872[0m [35mW srv prompt_save: - saving prompt with length 12163, total state size = 411.405 MiB (draft: 47.744 MiB)
[0m[34m3.11.766.865[0m [32mI [0msrv load: - looking for better prompt, base f_keep = 0.000, sim = 0.000
[34m3.11.766.874[0m [32mI [0msrv update: - cache state: 1 prompts, 596.347 MiB (limits: 8192.000 MiB, 131072 tokens, 167082 est)
[34m3.11.766.877[0m [32mI [0msrv update: - prompt 0000029F0C14B3A0: 12163 tokens, checkpoints: 1, 596.347 MiB
[34m3.11.766.879[0m [32mI [0msrv get_availabl: prompt cache update took 204.78 ms
[34m3.11.767.318[0m [32mI [0mslot launch_slot_: id 0 | task 1045 | processing task, is_child = 0
[34m3.11.767.333[0m [32mI [0mslot update_slots: id 0 | task 1045 | Checking checkpoint with [8996, 8996] against 2...
[34m3.11.767.336[0m [35mW slot update_slots: id 0 | task 1045 | forcing full prompt re-processing due to lack of cache data (likely due to SWA or hybrid/recurrent memory, see https://github.com/ggml-org/llama.cpp/pull/13194#issuecomment-2868343055)
[0m[34m3.11.767.340[0m [35mW slot update_slots: id 0 | task 1045 | erased invalidated context checkpoint (pos_min = 8996, pos_max = 8996, n_tokens = 8997, n_swa = 0, pos_next = 0, size = 184.942 MiB)
[0m[34m3.12.161.249[0m [32mI [0mslot create_check: id 0 | task 1045 | created context checkpoint 1 of 32 (pos_min = 361, pos_max = 361, n_tokens = 362, size = 151.047 MiB)
[34m3.15.050.013[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt processing, n_tokens = 4458, progress = 0.08, t = 3.28 s / 1358.04 tokens per second
[34m3.16.509.158[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt processing, n_tokens = 6506, progress = 0.12, t = 4.74 s / 1372.05 tokens per second
[34m3.18.007.190[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt processing, n_tokens = 8554, progress = 0.15, t = 6.24 s / 1370.87 tokens per second
[34m3.19.532.959[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt processing, n_tokens = 10602, progress = 0.19, t = 7.77 s / 1365.25 tokens per second
[34m3.21.088.746[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt processing, n_tokens = 12650, progress = 0.23, t = 9.32 s / 1357.09 tokens per second
[34m3.22.683.336[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt processing, n_tokens = 14698, progress = 0.26, t = 10.92 s / 1346.47 tokens per second
[34m3.24.307.549[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt processing, n_tokens = 16746, progress = 0.30, t = 12.54 s / 1335.39 tokens per second
[34m3.25.964.943[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt processing, n_tokens = 18794, progress = 0.34, t = 14.20 s / 1323.75 tokens per second
[34m3.27.650.395[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt processing, n_tokens = 20842, progress = 0.37, t = 15.88 s / 1312.22 tokens per second
[34m3.29.372.484[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt processing, n_tokens = 22890, progress = 0.41, t = 17.61 s / 1300.19 tokens per second
[34m3.31.133.380[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt processing, n_tokens = 24938, progress = 0.45, t = 19.37 s / 1287.72 tokens per second
[34m3.32.933.422[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt processing, n_tokens = 26986, progress = 0.48, t = 21.17 s / 1274.96 tokens per second
[34m3.34.766.091[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt processing, n_tokens = 29034, progress = 0.52, t = 23.00 s / 1262.42 tokens per second
[34m3.36.628.129[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt processing, n_tokens = 31082, progress = 0.56, t = 24.86 s / 1250.24 tokens per second
[34m3.38.523.583[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt processing, n_tokens = 33130, progress = 0.60, t = 26.76 s / 1238.22 tokens per second
[34m3.40.449.198[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt processing, n_tokens = 35178, progress = 0.63, t = 28.68 s / 1226.49 tokens per second
[34m3.42.421.302[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt processing, n_tokens = 37226, progress = 0.67, t = 30.65 s / 1214.39 tokens per second
[34m3.44.426.882[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt processing, n_tokens = 39274, progress = 0.71, t = 32.66 s / 1202.53 tokens per second
[34m3.46.471.948[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt processing, n_tokens = 41322, progress = 0.74, t = 34.70 s / 1190.68 tokens per second
[34m3.48.549.836[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt processing, n_tokens = 43370, progress = 0.78, t = 36.78 s / 1179.09 tokens per second
[34m3.50.662.193[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt processing, n_tokens = 45418, progress = 0.82, t = 38.89 s / 1167.71 tokens per second
[34m3.52.837.951[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt processing, n_tokens = 47466, progress = 0.85, t = 41.07 s / 1155.72 tokens per second
[34m3.55.019.000[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt processing, n_tokens = 49514, progress = 0.89, t = 43.25 s / 1144.79 tokens per second
[34m3.57.260.487[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt processing, n_tokens = 51562, progress = 0.93, t = 45.49 s / 1133.40 tokens per second
[34m3.59.525.014[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt processing, n_tokens = 53610, progress = 0.96, t = 47.76 s / 1122.54 tokens per second
[34m4.00.773.859[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt processing, n_tokens = 54644, progress = 0.98, t = 49.01 s / 1115.04 tokens per second
[34m4.00.916.683[0m [32mI [0mslot create_check: id 0 | task 1045 | created context checkpoint 2 of 32 (pos_min = 54643, pos_max = 54643, n_tokens = 54644, size = 364.122 MiB)
[34m4.02.074.532[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt processing, n_tokens = 55668, progress = 1.00, t = 50.31 s / 1106.56 tokens per second
[34m4.02.231.320[0m [32mI [0mslot create_check: id 0 | task 1045 | created context checkpoint 3 of 32 (pos_min = 55667, pos_max = 55667, n_tokens = 55668, size = 368.141 MiB)
[34m4.02.295.988[0m [32mI [0mbegin: ngram_mod occupancy = 48153/4194304 (0.01)
[34m4.04.729.586[0m [32mI [0mslot print_timing: id 0 | task 1045 | n_decoded = 101, tg = 41.53 t/s
[34m4.07.759.011[0m [32mI [0mslot print_timing: id 0 | task 1045 | n_decoded = 264, tg = 48.34 t/s
[34m4.10.786.113[0m [32mI [0mslot print_timing: id 0 | task 1045 | n_decoded = 429, tg = 50.54 t/s
[34m4.13.814.218[0m [32mI [0mslot print_timing: id 0 | task 1045 | n_decoded = 567, tg = 49.23 t/s
[34m4.16.829.972[0m [32mI [0mslot print_timing: id 0 | task 1045 | n_decoded = 703, tg = 48.38 t/s
[34m4.19.845.676[0m [32mI [0mslot print_timing: id 0 | task 1045 | n_decoded = 865, tg = 49.29 t/s
[34m4.22.875.983[0m [32mI [0mslot print_timing: id 0 | task 1045 | n_decoded = 1008, tg = 48.98 t/s
[34m4.25.920.495[0m [32mI [0mslot print_timing: id 0 | task 1045 | n_decoded = 1167, tg = 49.40 t/s
[34m4.28.956.098[0m [32mI [0mslot print_timing: id 0 | task 1045 | n_decoded = 1326, tg = 49.74 t/s
[34m4.31.977.717[0m [32mI [0mslot print_timing: id 0 | task 1045 | n_decoded = 1475, tg = 49.70 t/s
[34m4.34.979.991[0m [32mI [0mslot print_timing: id 0 | task 1045 | n_decoded = 1619, tg = 49.54 t/s
[34m4.37.989.947[0m [32mI [0mslot print_timing: id 0 | task 1045 | n_decoded = 1741, tg = 48.78 t/s
[34m4.41.046.861[0m [32mI [0mslot print_timing: id 0 | task 1045 | n_decoded = 1864, tg = 48.10 t/s
[34m4.43.158.621[0m [32mI [0mslot print_timing: id 0 | task 1045 | prompt eval time = 50530.12 ms / 55672 tokens ( 0.91 ms per token, 1101.76 tokens per second)
[34m4.43.158.626[0m [32mI [0mslot print_timing: id 0 | task 1045 | eval time = 40860.81 ms / 1956 tokens ( 20.89 ms per token, 47.87 tokens per second)
[34m4.43.158.627[0m [32mI [0mslot print_timing: id 0 | task 1045 | total time = 91390.93 ms / 57628 tokens
[34m4.43.158.629[0m [32mI [0mslot print_timing: id 0 | task 1045 | graphs reused = 1683
[34m4.43.158.630[0m [32mI [0mslot print_timing: id 0 | task 1045 | draft acceptance = 0.63998 ( 1287 accepted / 2011 generated)
[34m4.43.158.671[0m [32mI [0mstatistics ngram-mod: #calls(b,g,a) = 2 1706 2, #gen drafts = 2, #acc drafts = 2, #gen tokens = 10, #acc tokens = 6, dur(b,g,a) = 7.376, 3.912, 0.002 ms
[34m4.43.158.678[0m [32mI [0mstatistics draft-mtp: #calls(b,g,a) = 2 1704 1704, #gen drafts = 1704, #acc drafts = 1393, #gen tokens = 5112, #acc tokens = 3364, dur(b,g,a) = 0.002, 12570.379, 3.195 ms
[34m4.43.160.706[0m [32mI [0mslot release: id 0 | task 1045 | stop processing: n_tokens = 57628, truncated = 0
[34m4.43.160.751[0m [32mI [0msrv update_slots: all slots are idle
】

输出Tokens速度：

运行时显卡信息：

Reply to llama.cpp 双 RTX 3080 推理加速实测：Qwen3.6-27B 从 35 到 50 tok/s on Tue, 26 May 2026 05:28:24 GMT

joker_chang — Tue, 26 May 2026 05:28:24 GMT

@rock-shi 谢谢大佬，确实速度快了！

Reply to llama.cpp 双 RTX 3080 推理加速实测：Qwen3.6-27B 从 35 到 50 tok/s on Tue, 26 May 2026 04:52:11 GMT

rock shi — Tue, 26 May 2026 04:52:11 GMT

@joker_chang --ubatch-size 2048改成1024就行，跟Windows没关系

Reply to llama.cpp 双 RTX 3080 推理加速实测：Qwen3.6-27B 从 35 到 50 tok/s on Tue, 26 May 2026 04:16:55 GMT

joker_chang — Tue, 26 May 2026 04:16:55 GMT

CUDA_SCALE_LAUNCH_QUEUES=4 /home/simon/llama.cpp/build/bin/llama-server
-m /path/to/Qwen3.6-27B-Q4_K_M.gguf
-ngl 99 --host 127.0.0.1 --port 8082 -c 131072 --temp 0
--spec-type draft-mtp,ngram-mod
--spec-draft-n-max 3
--spec-ngram-mod-n-max 5 --spec-ngram-mod-n-min 3
--ubatch-size 2048 --batch-size 2048
-fa on -ctk q4_0 -ctv q4_0
大哥，您这个参数我的3090Ti跑不起来，显存超了，难道这是windows10和windows11的区别吗？