7900XTX + llama.cpp Qwen3.6 27B TurboQuant + MTP 测试结果分享
-
全是干货, 感谢分享!
-
llama-benchy result:
cd /var/home/deck/tmp/llama-benchy uv run llama-benchy \ --base-url http://127.0.0.1:8081/v1 \ --model froggeric/Qwen3.6-27B-MTP-GGUF \ --served-model-name Qwen3.6-27B-Q4_K_M-mtp.gguf \ --tokenizer Qwen/Qwen3.6-27B \ --pp 2048 --tg 32 \ --depth 0 8192 32768 \ --runs 1 --no-cache --latency-mode generation --skip-coherence \ --save-result results/qwen36-27b-mtp-8081-sample-20260513.json --format json Results: | context depth | pp t/s | tg t/s | peak tg t/s | TTFR | est PPT | |---|---:|---:|---:|---:|---:| | 0 | 457.92 | 29.75 | 30.0 | 4693 ms | 4477 ms | | 8192 | 432.96 | 28.24 | 29.0 | 23870 ms | 23654 ms | | 32768 | 329.57 | 25.24 | 27.0 | 105856 ms | 105640 ms | .venv/bin/llama-benchy \ --base-url http://127.0.0.1:8081/v1 \ --model Qwen/Qwen3.6-27B \ --served-model-name Qwen_Qwen3.6-27B-Q4_K_M.gguf \ --tokenizer Qwen/Qwen3.6-27B \ --pp 2048 \ --tg 32 \ --depth 0 8192 32768 \ --runs 1 \ --latency-mode generation \ --save-result results/qwen36-27b-original-8081-20260513T235739Z.json \ --format json Results: | depth | pp t/s | tg t/s | TTFR ms | |---|---:|---:|---:| | 0 | 685.49 | 30.63 | 3190.39 | | 8192 | 640.61 | 30.00 | 16184.55 | | 32768 | 486.52 | 28.16 | 71766.55 |llama.cpp server config:
#MODEL="/run/media/deck/ExternalSSD/.llama.cpp/models/froggeric_Qwen3.6-27B-MTP-GGUF/Qwen3.6-27B-Q4_K_M-mtp.gguf" MODEL="/var/run/media/deck/ExternalSSD/.llama.cpp/models/Qwen_Qwen3.6-27B-GGUF/Qwen_Qwen3.6-27B-Q4_K_M.gguf" # cd "/var/home/deck/tmp/llama-pr-22673-mtp-clean/build-vulkan-pr22673/bin" cd "/var/home/deck/code/llama.cpp/build-vulkan/bin" export VK_LOADER_LAYERS_DISABLE=VK_LAYER_LS_frame_generation exec ./llama-server \ -m "$MODEL" \ -ngl 99 \ -dev Vulkan0 \ -fa on \ -c 200000 \ -ctk q4_0 \ -ctv q4_0 \ -ub 256 \ --temp 0.2 \ --top-k 20 \ --parallel 1 \ -rea off \ --reasoning-budget 0 \ --host "$HOST" \ --port "$PORT" # MTP flags: # --spec-type mtp # --spec-draft-n-max 2昨天测了一天感觉MTP打开没有变化(~30tok/s),用了几轮就会爆VRAM, 希望指正哪里出问题了。
我是用beelink ser7 + eGPU 7900xtx + bazzite + hermes agent + discrod
现在基本可以游戏/LLM随时切换, eGPU坑还是很多, 在等x99主板到装机eGPU坑:
用all-ways-egpu可以点亮显卡+游戏
Kfd/ROCm没发使用,试了setup时不去设置iGPU kfd就能用了,但是bazzite不能进game mode了,还在找最后解决方案
-
llama-benchy result:
cd /var/home/deck/tmp/llama-benchy uv run llama-benchy \ --base-url http://127.0.0.1:8081/v1 \ --model froggeric/Qwen3.6-27B-MTP-GGUF \ --served-model-name Qwen3.6-27B-Q4_K_M-mtp.gguf \ --tokenizer Qwen/Qwen3.6-27B \ --pp 2048 --tg 32 \ --depth 0 8192 32768 \ --runs 1 --no-cache --latency-mode generation --skip-coherence \ --save-result results/qwen36-27b-mtp-8081-sample-20260513.json --format json Results: | context depth | pp t/s | tg t/s | peak tg t/s | TTFR | est PPT | |---|---:|---:|---:|---:|---:| | 0 | 457.92 | 29.75 | 30.0 | 4693 ms | 4477 ms | | 8192 | 432.96 | 28.24 | 29.0 | 23870 ms | 23654 ms | | 32768 | 329.57 | 25.24 | 27.0 | 105856 ms | 105640 ms | .venv/bin/llama-benchy \ --base-url http://127.0.0.1:8081/v1 \ --model Qwen/Qwen3.6-27B \ --served-model-name Qwen_Qwen3.6-27B-Q4_K_M.gguf \ --tokenizer Qwen/Qwen3.6-27B \ --pp 2048 \ --tg 32 \ --depth 0 8192 32768 \ --runs 1 \ --latency-mode generation \ --save-result results/qwen36-27b-original-8081-20260513T235739Z.json \ --format json Results: | depth | pp t/s | tg t/s | TTFR ms | |---|---:|---:|---:| | 0 | 685.49 | 30.63 | 3190.39 | | 8192 | 640.61 | 30.00 | 16184.55 | | 32768 | 486.52 | 28.16 | 71766.55 |llama.cpp server config:
#MODEL="/run/media/deck/ExternalSSD/.llama.cpp/models/froggeric_Qwen3.6-27B-MTP-GGUF/Qwen3.6-27B-Q4_K_M-mtp.gguf" MODEL="/var/run/media/deck/ExternalSSD/.llama.cpp/models/Qwen_Qwen3.6-27B-GGUF/Qwen_Qwen3.6-27B-Q4_K_M.gguf" # cd "/var/home/deck/tmp/llama-pr-22673-mtp-clean/build-vulkan-pr22673/bin" cd "/var/home/deck/code/llama.cpp/build-vulkan/bin" export VK_LOADER_LAYERS_DISABLE=VK_LAYER_LS_frame_generation exec ./llama-server \ -m "$MODEL" \ -ngl 99 \ -dev Vulkan0 \ -fa on \ -c 200000 \ -ctk q4_0 \ -ctv q4_0 \ -ub 256 \ --temp 0.2 \ --top-k 20 \ --parallel 1 \ -rea off \ --reasoning-budget 0 \ --host "$HOST" \ --port "$PORT" # MTP flags: # --spec-type mtp # --spec-draft-n-max 2昨天测了一天感觉MTP打开没有变化(~30tok/s),用了几轮就会爆VRAM, 希望指正哪里出问题了。
我是用beelink ser7 + eGPU 7900xtx + bazzite + hermes agent + discrod
现在基本可以游戏/LLM随时切换, eGPU坑还是很多, 在等x99主板到装机eGPU坑:
用all-ways-egpu可以点亮显卡+游戏
Kfd/ROCm没发使用,试了setup时不去设置iGPU kfd就能用了,但是bazzite不能进game mode了,还在找最后解决方案
@ken-huang
AMD用不不要用显卡坞,别问我怎么知道的
,特么的真是折腾,英伟达只是小毛病,这个是一堆暗病。

-
-
@Leon-Y ollama是个玩具不是工具,换llama.cpp或者 vllm
-
@Leon-Y ollama是个玩具不是工具,换llama.cpp或者 vllm
-
系统 取消固定了该主题
-
T terry 固定了该主题
-
感謝大神分享!好人一生平安
-
张 张鑫磊 被引用 于这个主题
-
此配置经测试(Hermes跑大任务),24G的显存 容易爆OOM
所以改为了
--ctx-size 65536
--batch-size 512
--ubatch-size 128 \ -
@david-zhang Qwen3.6-27B-Q4_K_M-mtp.gguf这个是不是只有huggingface上有modelscope上找不到
-

有,但是huggingface会更多 -
系统 取消固定了该主题