2080Ti 22G魔改版+llama.cpp pr-22673开启MTP Chat场景TPS提升20%左右
-
今天看到一篇微信公众号文章: https://mp.weixin.qq.com/s/KQo-UBEOvtRMW5dK1bz6PQ
按照文章内容搭建了测试环境:git clone https://github.com/ggml-org/llama.cpp llama.cpp-mtp cd llama.cpp-mtp git fetch origin pull/22673/head:pr-22673 git checkout pr-22673 mkdir build && cd build cmake .. \ -DCMAKE_BUILD_TYPE=Release \ -DGGML_CUDA=ON \ -DLLAMA_CURL=ON \ -DGGML_NATIVE=ON \ -DGGML_CUDA_GRAPHS=ON \ -DGGML_CUDA_F16=ON \ -DGGML_CUDA_FA_ALL_QUANTS=ON \ -DCMAKE_CUDA_ARCHITECTURES=75 # 按需调整,89=Ada/4090,86=Ampere/3090 cmake --build . --config Release \ --target llama-server llama-bench --parallel下载了unsloth的开启MTP模型: https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF/resolve/main/Qwen3.6-27B-Q4_K_M.gguf -O ~/models/Qwen3.6-27B-MTP-Q4_K_M.gguf
不加载vision的情况下, 启动:~/llama.cpp-mtp/build/bin/llama-server -m ~/models/Qwen3.6-27B-MTP-Q4_K_M.gguf \ --ctx-size 131072 \ --n-gpu-layers 999 \ -fa on \ --port 8000 \ --host 0.0.0.0 \ --cache-type-k q4_0 \ --cache-type-v q4_0 \ --no-mmap \ --no-warmup \ --reasoning off \ --jinja \ --parallel 1 \ --spec-type mtp \ --spec-draft-n-max 2 \ --chat-template-kwargs "{\"enable_thinking\": false, \"preserve_thinking\": false}"128k上下文,显存占用20.5G,简单用cherrybox提了几个问题,prompt大概2k上下。 TPS从之前的27提升到了33左右。整体感觉快了20%。 coding场景没有测试,理论上应该提升更多。
另外,对于--spec-draft-n-max 的值,测了1,2,3。发现2时收益最大,能跑到33~34; 1和3都在30上下。 总体都比裸跑有提升。
最后挂上了vision,发了一张1M左右的图片测试了一下,TPS在28左右,显存占用21.75G。 我准备测几天,看看会不会OOM。
另外还有一个发现,开了MTP以后,显卡的utility下来了。之前基本上都在95%以上,功率一直顶着上限250W。开了MTP,tps上升的同时,utility基本上都在80%左右,功率也基本上不会满载了。估计是降低了开销,输出也降低,但是被MTP补偿了。总体来讲,2080Ti这个卡应该没什么压榨空间了,跑Hermes太慢,适合跑好skill,布置好cron让他后台自己干活,不适合前台交互。

-
精品。终于看到精华了。20系列 主驱动 太老了。你能搞出效果很难得。
-
@Fred 我平时不加MTP是,utility基本都95%以上了, MTP再消耗一部分算力,在20这样的算力基础上,估计也就提升到这意思了。适合入门或者应用频率不高的chat场景。
-
入门耍耍呗。没有生产力。锤锤的核心是有项目再起飞。你现在就是熟悉这个折腾的流程就行。有项目了再搞硬件。
-
@terry 没有。显卡核心问题。这玩意上不了天的。
-
T terry 固定了该主题
-
系统 取消固定了该主题
