2080Ti 22G魔改版+llama.cpp pr-22673开启MTP Chat场景TPS提升20%左右

davidwei0826

今天看到一篇微信公众号文章： https://mp.weixin.qq.com/s/KQo-UBEOvtRMW5dK1bz6PQ
按照文章内容搭建了测试环境：

git clone https://github.com/ggml-org/llama.cpp llama.cpp-mtp
cd llama.cpp-mtp
git fetch origin pull/22673/head:pr-22673
git checkout pr-22673
mkdir build && cd build
cmake .. \
  -DCMAKE_BUILD_TYPE=Release \
  -DGGML_CUDA=ON \
  -DLLAMA_CURL=ON \
  -DGGML_NATIVE=ON \
  -DGGML_CUDA_GRAPHS=ON \
  -DGGML_CUDA_F16=ON \
  -DGGML_CUDA_FA_ALL_QUANTS=ON \
  -DCMAKE_CUDA_ARCHITECTURES=75   # 按需调整，89=Ada/4090，86=Ampere/3090
cmake --build . --config Release \
  --target llama-server llama-bench --parallel

下载了unsloth的开启MTP模型： https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF/resolve/main/Qwen3.6-27B-Q4_K_M.gguf -O ~/models/Qwen3.6-27B-MTP-Q4_K_M.gguf
不加载vision的情况下，启动：

~/llama.cpp-mtp/build/bin/llama-server -m ~/models/Qwen3.6-27B-MTP-Q4_K_M.gguf \
--ctx-size 131072 \
--n-gpu-layers 999 \
-fa on \
--port 8000 \
--host 0.0.0.0 \
--cache-type-k q4_0 \
--cache-type-v q4_0 \
--no-mmap \
--no-warmup \
--reasoning off \
--jinja \
--parallel 1 \
--spec-type mtp \
--spec-draft-n-max 2 \
--chat-template-kwargs "{\"enable_thinking\": false, \"preserve_thinking\": false}"

128k上下文，显存占用20.5G，简单用cherrybox提了几个问题，prompt大概2k上下。 TPS从之前的27提升到了33左右。整体感觉快了20%。 coding场景没有测试，理论上应该提升更多。
另外，对于--spec-draft-n-max 的值，测了1,2,3。发现2时收益最大，能跑到33~34； 1和3都在30上下。总体都比裸跑有提升。
最后挂上了vision，发了一张1M左右的图片测试了一下，TPS在28左右，显存占用21.75G。我准备测几天，看看会不会OOM。
另外还有一个发现，开了MTP以后，显卡的utility下来了。之前基本上都在95%以上，功率一直顶着上限250W。开了MTP，tps上升的同时，utility基本上都在80%左右，功率也基本上不会满载了。估计是降低了开销，输出也降低，但是被MTP补偿了。

总体来讲，2080Ti这个卡应该没什么压榨空间了，跑Hermes太慢，适合跑好skill，布置好cron让他后台自己干活，不适合前台交互。

Fred

20%提升有点少啊，llama.cpp开MTP一般能提升2~2.5x的TG，不过那是在30，40系列上测的，可能确实20系列卡的极限到了。

williamlouis

精品。终于看到精华了。20系列主驱动太老了。你能搞出效果很难得。

davidwei0826

@Fred 我平时不加MTP是，utility基本都95%以上了， MTP再消耗一部分算力，在20这样的算力基础上，估计也就提升到这意思了。适合入门或者应用频率不高的chat场景。

williamlouis

入门耍耍呗。没有生产力。锤锤的核心是有项目再起飞。你现在就是熟悉这个折腾的流程就行。有项目了再搞硬件。

terry

精品，2080Ti还挺不错的，我被打脸了啊。

williamlouis

@terry 没有。显卡核心问题。这玩意上不了天的。

ezios

很有参考意义，我最近打算上车2080ti22试试

joker_chang

我在windows10上编译整合了MTP的llama.cpp的主干代码，在3090Ti24G上只能跑到8tokens/s，还不如LM Studio的效果好。准备按照大大的操作重新拉分支再编译一个版本看看。

不至于windows和linux的差距有这么大把~

davidwei0826

前几天看到MTP的PR合并主线了，拉下来编译了一下，配合unsloth的带TPM的Q4量化模型，感觉这个显卡还可以再战。
Qwen3.6-35B-A3B Q4_K_M, 双卡， 101.89 TPS

model	test	t/s	peak t/s	ttfr (ms)	est_ppt (ms)	e2e_ttft (ms)
qwen3.6-35B llama.cpp	pp2048	977.46 ± 210.02		2064.32 ± 518.14	2039.35 ± 518.14	2064.32 ± 518.14
qwen3.6-35B llama.cpp	tg32	101.89 ± 5.71	105.21 ± 5.85

Qwen3.6-27B Q4_K_M, 双卡， 36.4 TPS

model	test	t/s	peak t/s	ttfr (ms)	est_ppt (ms)	e2e_ttft (ms)
qwen3.6-27B llama.cpp	pp2048	452.44 ± 41.05		4259.39 ± 584.84	4239.24 ± 584.84	4259.39 ± 584.84
qwen3.6-27B llama.cpp	tg32	36.40 ± 1.42	37.56 ± 1.44

Qwen3.6-35B-A3B,有没有NVLink速度都差不多; Qwen3.6-27B,没有NVLINK的话， TPS稍微少一点，在30左右，不如单卡。
但是2080Ti 22G这个卡，单卡跑不了Qwen3.6-35B-A3B Q4_K_M, 我上面帖子那个跑27B模型的，也不是特别稳定，一周遇到两次OOM. 所以如果不是双卡，就不要挂mmproj了，很容易OOM.
还有，最近用Qwen3.6-35B-A3B 配合Hermes,感觉没有想象的那么拉。任务简单一点，基本都能做，结果也能接受。太复杂的任务，在另一个连着GLM-5.1或者MINIMAX2.7的Hermes上跑一下，然后复制过来就行了，私密场景的，也没有特别复杂的任务。配合100多TPS的速度，整体感觉很爽。

PS: 这两张卡是去年买了，总成本5k，现在我看4k就能拿下了，建议如果只跑Hermes,能接受Qwen3.6-35B-A3B 智商的，可以入，还能战。

sirwang

我还有两张2080ti-22G，回头试一下，感谢。

ezios

请问27B的prompt处理速度是多少？我现在峰值600，慢慢就到500左右了，体感不好。35BA3B可以上千。按理说都在显存里，应该很快呀。

Q4KM的还行，UD的不行，说多了爆显存

version = 1

[*]
parallel = 1

n-gpu-layers = 999

ctx-size = 65536
predict = 8192

flash-attn = on

cache-type-k = q4_0
cache-type-v = q4_0

threads = 8
threads-batch = 16

batch-size = 8192
ubatch-size = 512

jinja = true
reasoning = off
reasoning-budget = 0

cache-prompt = true
cache-reuse = 256

kv-offload = true
kv-unified = true
context-shift = true

no-mmap = true

temp = 0.6
top-p = 0.9
top-k = 40
min-p = 0.0

presence-penalty = 0.0
repeat-penalty = 1.03

load-on-startup = false
stop-timeout = 10

[default]
model = C:\models\Qwen3.6-27B-Q4_K_M.gguf
; 128k
ctx-size = 131072
spec-type = draft-mtp
spec-draft-n-max = 2

cache-type-k-draft = q4_0
cache-type-v-draft = q4_0

batch-size = 8192
ubatch-size = 1024

[qwen36-27b-ud-q4k-xl-hermes-fast-read]
model = C:\models\Qwen3.6-27B-UD-Q4_K_XL.gguf
; 128k
ctx-size = 131072
spec-type = draft-mtp
spec-draft-n-max = 1

cache-type-k-draft = q4_0
cache-type-v-draft = q4_0

batch-size = 16384
ubatch-size = 1024

davidwei0826

你是说prefill？ pp2048：452.44 ± 41.05 。 35B-A3B可以到977.46 ± 210.02

Tony Wang

@ezios
prompt 处理要靠算力, 因为要把参数都算一遍. decode主要靠显存带宽. 所以 27B 和 A3B 的速度差异很大.

ezios

@davidwei0826 我跟你这差不多，看来到极限了

ezios

@Tony-Wang 看来没啥好优化的了，但是没得说，27b干活是真爽

元气堡AI智能

根据https://www.youtube.com/watch?v=nU9c-PffHPg&t=361s，我用2080ti22G可以跑qwen3.6-35b模型24token/s
cuda下载是12.4
启动参数
@echo off
chcp 65001 >nul
cd /d C:\llm

llama-server.exe ^
-m "models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" ^
--mmproj "models\mmproj-BF16.gguf" ^
-ngl 99 ^
--n-cpu-moe 999 ^
--flash-attn on ^
--jinja ^
-c 65536 ^
-t 10 ^
-b 4096 ^
-ub 128 ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--mlock ^
--host 127.0.0.1 ^
--port 8080

pause

抡锤者

2080Ti 22G魔改版+llama.cpp pr-22673开启MTP Chat场景TPS提升20%左右