7900XTX + llama.cpp Qwen3.6 27B TurboQuant + MTP 测试结果分享

michael gong

全是干货, 感谢分享!

ken huang

llama-benchy result:

cd /var/home/deck/tmp/llama-benchy
uv run llama-benchy \
  --base-url http://127.0.0.1:8081/v1 \
  --model froggeric/Qwen3.6-27B-MTP-GGUF \
  --served-model-name Qwen3.6-27B-Q4_K_M-mtp.gguf \
  --tokenizer Qwen/Qwen3.6-27B \
  --pp 2048 --tg 32 \
  --depth 0 8192 32768 \
  --runs 1 --no-cache --latency-mode generation --skip-coherence \
  --save-result results/qwen36-27b-mtp-8081-sample-20260513.json --format json

Results:

| context depth | pp t/s | tg t/s | peak tg t/s | TTFR | est PPT |
|---|---:|---:|---:|---:|---:|
| 0 | 457.92 | 29.75 | 30.0 | 4693 ms | 4477 ms |
| 8192 | 432.96 | 28.24 | 29.0 | 23870 ms | 23654 ms |
| 32768 | 329.57 | 25.24 | 27.0 | 105856 ms | 105640 ms |

.venv/bin/llama-benchy \
  --base-url http://127.0.0.1:8081/v1 \
  --model Qwen/Qwen3.6-27B \
  --served-model-name Qwen_Qwen3.6-27B-Q4_K_M.gguf \
  --tokenizer Qwen/Qwen3.6-27B \
  --pp 2048 \
  --tg 32 \
  --depth 0 8192 32768 \
  --runs 1 \
  --latency-mode generation \
  --save-result results/qwen36-27b-original-8081-20260513T235739Z.json \
  --format json


Results:
| depth | pp t/s | tg t/s | TTFR ms |
|---|---:|---:|---:|
| 0 | 685.49 | 30.63 | 3190.39 |
| 8192 | 640.61 | 30.00 | 16184.55 |
| 32768 | 486.52 | 28.16 | 71766.55 |

llama.cpp server config:

    #MODEL="/run/media/deck/ExternalSSD/.llama.cpp/models/froggeric_Qwen3.6-27B-MTP-GGUF/Qwen3.6-27B-Q4_K_M-mtp.gguf"
    MODEL="/var/run/media/deck/ExternalSSD/.llama.cpp/models/Qwen_Qwen3.6-27B-GGUF/Qwen_Qwen3.6-27B-Q4_K_M.gguf"

      # cd "/var/home/deck/tmp/llama-pr-22673-mtp-clean/build-vulkan-pr22673/bin"
      cd "/var/home/deck/code/llama.cpp/build-vulkan/bin"

      export VK_LOADER_LAYERS_DISABLE=VK_LAYER_LS_frame_generation

      exec ./llama-server \
        -m "$MODEL" \
        -ngl 99 \
        -dev Vulkan0 \
        -fa on \
        -c 200000 \
        -ctk q4_0 \
        -ctv q4_0 \
        -ub 256 \
	--temp 0.2 \
	--top-k 20 \
	--parallel 1 \
        -rea off \
        --reasoning-budget 0 \
        --host "$HOST" \
        --port "$PORT"

       # MTP flags:
       #       --spec-type mtp 
       #       --spec-draft-n-max 2

昨天测了一天感觉MTP打开没有变化（～30tok/s），用了几轮就会爆VRAM, 希望指正哪里出问题了。
我是用beelink ser7 + eGPU 7900xtx + bazzite + hermes agent + discrod
现在基本可以游戏/LLM随时切换, eGPU坑还是很多，在等x99主板到装机

eGPU坑：
用all-ways-egpu可以点亮显卡+游戏
Kfd/ROCm没发使用,试了setup时不去设置iGPU kfd就能用了，但是bazzite不能进game mode了，还在找最后解决方案

Update:
confirm disable iGPU from bios, I can use ROCm and Bazzite able to boot into game mode

terry

@ken-huang
AMD用不不要用显卡坞，别问我怎么知道的，特么的真是折腾，英伟达只是小毛病，这个是一堆暗病。
7900xtx戴尔笔记本显卡坞.jpeg

Fred

@Miraco 说:

@Fred 感谢您的指点。

不客气哈，论坛嘛就是自己知道点啥有空就贡献贡献。
其实目前不建议除了prefill变慢，不支持多并发之外，还有个原因就是目前llama.cpp这个MTP分支还不支持--mmproj参数，不能支持图片识别。相当于没有多模态的能力了。如果对图片识别有需求的场景就根本无法用。
当前社区大神还在做一个抽象层框架，把这些spec-decoding的技术都抽象出来，以便后续陆续在同一个框架内合入MTP/DFLASH这一类的功能。这些事情做完之前还不会合并。PR只是给爱折腾，有技术能力的兄弟尝尝鲜的。

Leon Y

我搞了个7900 XT 20GB, 用ollama 在跑qwen3.6:27b-q8_0，感觉很慢

terry

@Leon-Y 显存是不是溢出了？

Leon Y

@terry 没有溢出，但极其接近100。目前96.4% 使用率，空闲不到 750 MB。系统日志也没有 GPU OOM 报错。

David Zhang

@Leon-Y ollama是个玩具不是工具，换llama.cpp或者 vllm

Leon Y

@David-Zhang 说:

@Leon-Y ollama是个玩具不是工具，换llama.cpp或者 vllm

果然上了llama.cpp，速度起飞，显卡风扇狂吼。

asdqwe876

22673测试下来windows下概率崩溃,找不到原因

xiaopbro

牛啊，大佬，学习了

Chang Ching-Chun

感謝大神分享！好人一生平安

terry

@Devin-Hi 改了之后呢？改进如何？我也想抄作业了。

张鑫磊

@david-zhang Qwen3.6-27B-Q4_K_M-mtp.gguf这个是不是只有huggingface上有modelscope上找不到

David Zhang

有，但是huggingface会更多

lei ruan

此主題已被删除！

terry

@David-Zhang 有空讲下OpenCode体验如何，编程跑Agent，我最近想要折腾下，要是能抄作业最好。

exe127

@David-Zhang 可以請教, 為什麼你和老特都不推薦 ollama , 推llama.cpp呢? 我也是先問了AI, 它說你們應該是覺得 ollama 雖然是容易上手, 但可調教的參數太少. llama.cpp 才是真正的生產工具. 沒說錯嗎?

566656661

@exe127

Ollama本體就是一個llama.cpp的Fork

exe127

@566656661 對呀. AI也是這樣回覆我. 剛巧看到了一個reddit同樣的疑問:

https://www.reddit.com/r/LocalLLaMA/comments/1mdma9a/help_choosing_between_ollama_llamacpp_or/

說的很清楚了. 我想我也用 llama.cpp 更好

参数	最佳值
后端	Vulkan
MTP	`--spec-type draft-mtp --spec-draft-n-max 2`
子批次大小	`-ub 512`
批次大小	`-b 512`
闪存注意力	`-fa auto`（默认）
KV 缓存	`-ctk q4_0 -ctv q4_0`
GPU 层数	`-ngl 999`（全部）
线程数	默认（自动）
上下文大小	最高 `-c 262144`（256K）

ubatch	ROCm pp(t/s)	ROCm tg(t/s)	Vulkan pp(t/s)	Vulkan tg(t/s)
64	614	29	511	40
128	703	29	768	40
256	910	29	844	40
512	975	29	908	40
1024	977	29	908	40

KV 类型	ROCm pp	ROCm tg	Vulkan pp	Vulkan tg
f16	975	29	907	40
q8_0	973	28	904	40
q4_0	974	28	903	39
q4_1	-	-	905	39
iq4_nl	-	-	-	-

flash-attn	ROCm pp	ROCm tg	Vulkan pp	Vulkan tg
开启	976	29	908	40
关闭	964	29	902	40
自动	977	29	908	40

batch	ROCm pp	ROCm tg	Vulkan pp	Vulkan tg
256	914	29	832	40
512	976	29	907	40
1024	976	29	904	40
2048	976	29	905	40
4096	977	29	907	40

抡锤者

7900XTX + llama.cpp Qwen3.6 27B TurboQuant + MTP 测试结果分享

1. Rocm + turboquant,

2. Vulkan

2.1 Vulkan + turboquant,

3. Vulkan + MTP

3. Rocm + MTP

4.Hipfire (DFlash) v0.1.20

5. 老卡 P40 24G，

不开MTP

开MTP

opencode + deepseek v4 帮我跑了一把，结果如下

llama.cpp master branch 测试结果 (2026-6-2)

系统配置

最佳参数

原始 GPU 基准测试（llama-bench，pp512/tg128）

子批次大小扫描

KV 缓存类型（性能影响可忽略）

闪存注意力

批次大小扫描

服务器基准测试（llama-server，7 token 提示词，100 生成 token）

Vulkan 后端

ROCm 后端

长上下文（Vulkan MTP n=2，Q4 KV 缓存）

推荐启动命令

关键结论

llama-bench 测试结果（2026-5-11）

环境

ROCm (HIP) - KV缓存类型对比 (非MTP)

Vulkan - KV缓存类型对比 (非MTP)

标准构建 (`~/Downloads/llama.cpp/build-vulkan/bin/llama-bench`)

Turboquant 构建 (`~/Downloads/llama-cpp-turboquant/build-vulkan/bin/llama-bench`)

Vulkan + MTP

ROCm + MTP

总结

非MTP (llama-bench)

MTP (llama-cli)

关键观察

配置	pp(t/s)	tg(t/s)	草稿接受数	接受率
基线（无推测解码）	39.5	39.7	-	-
MTP n=2	29.4	63.6	58/81	72%
MTP n=4	31.2	62.1	52/75	69%
MTP n=8	29.4	60.5	45/68	66%
MTP n=16	28.1	58.0	38/60	63%
MTP n=32	27.3	53.2	32/55	58%

配置	pp(t/s)	tg(t/s)	草稿接受数	接受率
基线（无推测解码）	50.8	29.5	-	-
MTP n=2	24.2	46.2	58/81	72%
MTP n=8	23.1	43.5	36/93	39%
MTP n=16	22.5	41.0	30/80	38%
MTP n=32	21.8	38.5	25/70	36%

配置	pp(t/s)	tg(t/s)	草稿接受数	接受率
128K 上下文	31.5	67.5	30/36	83%
256K 上下文	31.2	67.4	30/36	83%

KV缓存类型	pp512 (token/s)	tg128 (token/s)
turbo2	193.43 ± 1.49	23.79 ± 0.17
turbo3	128.44 ± 1.31	21.88 ± 0.14
turbo4	178.94 ± 2.03	23.00 ± 0.25

配置	生成速度 (token/s)
非MTP (f16)	29.4
MTP (q4_0)	53.6
MTP (turbo3)	47.4
MTP (turbo4)	57.2

KV缓存类型	pp (token/s)	tg128 (token/s)	后端
f16	904.50	28.99	ROCm (pp1024)
q4_0	898.01	28.81	ROCm (pp1024)
f16	765.94	37.06	Vulkan 标准 (pp512)
Q4_0	769.82	37.17	Vulkan 标准 (pp512)
Q8_0	273.25	37.13	Vulkan 标准 (pp512)
turbo2	193.43	23.79	Vulkan turboquant (pp512)
turbo4	178.94	23.00	Vulkan turboquant (pp512)
turbo3	128.44	21.88	Vulkan turboquant (pp512)

配置	生成速度 (token/s)	后端
MTP (q4_0)	81.2	Vulkan
MTP (q8_0)	77.5	Vulkan
MTP (turbo4)	57.2	ROCm
MTP (q4_0)	53.6	ROCm
MTP (turbo3)	47.4	ROCm
非MTP (f16)	39.5	Vulkan
非MTP (f16)	29.4	ROCm

抡锤者

7900XTX + llama.cpp Qwen3.6 27B TurboQuant + MTP 测试结果分享

1. Rocm + turboquant,

2. Vulkan

2.1 Vulkan + turboquant,

3. Vulkan + MTP

3. Rocm + MTP

4.Hipfire (DFlash) v0.1.20

5. 老卡 P40 24G，

不开MTP

开MTP

opencode + deepseek v4 帮我跑了一把，结果如下

llama.cpp master branch 测试结果 (2026-6-2)

系统配置

最佳参数

原始 GPU 基准测试（llama-bench，pp512/tg128）

子批次大小扫描

KV 缓存类型（性能影响可忽略）

闪存注意力

批次大小扫描

服务器基准测试（llama-server，7 token 提示词，100 生成 token）

Vulkan 后端

ROCm 后端

长上下文（Vulkan MTP n=2，Q4 KV 缓存）

推荐启动命令

关键结论

llama-bench 测试结果（2026-5-11）

环境

ROCm (HIP) - KV缓存类型对比 (非MTP)

Vulkan - KV缓存类型对比 (非MTP)

标准构建 (~/Downloads/llama.cpp/build-vulkan/bin/llama-bench)

Turboquant 构建 (~/Downloads/llama-cpp-turboquant/build-vulkan/bin/llama-bench)

Vulkan + MTP

ROCm + MTP

总结

非MTP (llama-bench)

MTP (llama-cli)

关键观察

标准构建 (`~/Downloads/llama.cpp/build-vulkan/bin/llama-bench`)

Turboquant 构建 (`~/Downloads/llama-cpp-turboquant/build-vulkan/bin/llama-bench`)