看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan & ubuntu +rocm)

AGI

@nami-ryuu https://huggingface.co/crotron/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP/tree/main

AGI · Screenshot from 2026-06-24 20-56-25.png

@nami-ryuu 我用的是vulkan，你用的是rocm吧？

CHIA AN YANG · Screenshot from 2026-06-24 20-56-25.png

@nami-ryuu 建議vulkan順很多

#!/bin/bash

先鎖 GPU 時脈（需 sudo）

sudo rocm-smi --device 0 --setperflevel manual
sudo bash -c "echo '2' > /sys/class/drm/card2/device/pp_dpm_sclk"
sudo bash -c "echo '3' > /sys/class/drm/card2/device/pp_dpm_mclk"

export VK_ICD_FILENAMES=/usr/share/vulkan/icd.d/radeon_icd.json

SERVER=/path/to/llama.cpp/build-vulkan/bin/llama-server
MODEL=/path/to/Qwopus3.6-27B-v2-MTP-IQ4_XS.gguf

"$SERVER"
--host 0.0.0.0 --port 8080
--device Vulkan0 \ # 指定 GPU0
-m "$MODEL"
--alias "unsloth/Qwen3.6-27B-GGUF"
--spec-type draft-mtp \ # 開啟 MTP 推測解碼
--spec-draft-n-max 3 \ # 一次預測 3 個草稿 token
-ngl 99 \ # 全部層放 GPU
--ctx-size 65536 \ # 65K context
-n 8192
-b 2048 -ub 512 -np 1
--cache-type-k q8_0 \ # q8_0 KV cache（比 q4_0 接受率高 10-15%）
--cache-type-v q8_0
--no-mmap --mlock
--flash-attn on
--jinja --no-warmup --reasoning off

注意：不在 server 層設 sampling 參數（top-k/presence-penalty 會降低 MTP 接受率）

python96998

这个论坛的界面太丑了吧

terry

@python96998 你可以在随便聊聊板块专门发帖，说出你对论坛UI的感受，可以说出哪里丑，这是你作为访客的权利，也可以提出改进建议。

这是个技术话题的帖子，你在这里如此回帖，是缺乏教养的表现。你不是宇宙的中心，这个论坛不是你的许愿池，如此缺乏教养就会被我扇耳光，被骂然后被禁言。煞笔东西。

nami ryuu

@chia-an-yang @agi 谢谢两位老师，我先换成vulkan试一试。

AGI

@terry 你的性格也太直了，看Ytb能感觉出来，但是既然大家都来了，感觉可以允许有不同意见，这个ui丑，又不是你的过错，解释清楚就可以了。

terry

@AGI 这个头不能开，说的很清楚，这个UI丑，可以专门发帖提出来。
论坛有专门的板块，可以随便聊聊，也可以到公告区回复帖子。
这种人发帖的动机是什么？他发帖的时候，从未考虑过是否影响公共秩序，对这种人，我的原则就是绝不姑息。

另外，虽然不太重要，我认为这个UI即便算不上好看，它怎么也算不上丑。当然了，说它丑是自由，但这不是这人被我骂的原因。

nami ryuu

@agi @chia-an-yang 两位老师我跑通了，但是我用hermes的时候工具调用感觉卡了额，我的7900xtx在疯狂的生成，但是hermes却卡住了。请问两位遇到过类似的问题吗？
llama.cpp 输出：

65.27 t/s, tg_3s = 55.86 t/s
36.30.567.224 I slot print_timing: id 0 | task 8648 | n_decoded = 62072, tg = 65.24 t/s, tg_3s = 55.84 t/s
36.33.579.807 I slot print_timing: id 0 | task 8648 | n_decoded = 62240, tg = 65.21 t/s, tg_3s = 55.77 t/s
36.36.592.579 I slot print_timing: id 0 | task 8648 | n_decoded = 62408, tg = 65.18 t/s, tg_3s = 55.76 t/s
36.39.607.362 I slot print_timing: id 0 | task 8648 | n_decoded = 62576, tg = 65.15 t/s, tg_3s = 55.73 t/s
36.42.629.501 I slot print_timing: id 0 | task 8648 | n_decoded = 62744, tg = 65.12 t/s, tg_3s = 55.59 t/s
36.45.651.508 I slot print_timing: id 0 | task 8648 | n_decoded = 62912, tg = 65.09 t/s, tg_3s = 55.59 t/s
36.48.669.380 I slot print_timing: id 0 | task 8648 | n_decoded = 63080, tg = 65.06 t/s, tg_3s = 55.67 t/s
36.51.697.721 I slot print_timing: id 0 | task 8648 | n_decoded = 63247, tg = 65.03 t/s, tg_3s = 55.15 t/s
36.54.730.154 I slot print_timing: id 0 | task 8648 | n_decoded = 63415, tg = 65.00 t/s, tg_3s = 55.40 t/s
36.57.762.852 I slot print_timing: id 0 | task 8648 | n_decoded = 63583, tg = 64.97 t/s, tg_3s = 55.40 t/s
37.00.794.845 I slot print_timing: id 0 | task 8648 | n_decoded = 63751, tg = 64.94 t/s, tg_3s = 55.41 t/s

hermes输出：

c09f0fd3-2890-42e1-838f-8e36a2ab527b-bd93db497055bc01fe89b39dc4f1a308915fe680.rtfd

preparing browser_navigate...
navigate
search.yahoo.com
14.2s

Hermes
Let me try a more targeted search.
A
preparing browser_navigate... navigate www.google.com
3.35
Response truncated (finish_reason='length')
preparing browser_navigate...
navigate duckduckgo.com 20.5s preparing browser_scroll...
↓
scroll
down 0.2s
LOI
preparing browser_snapshot...
snapshot compact 0.2s preparing browser_navigate... navigate duckduckgo.com 1.5s
(>** cogitating...
model hit max output toke
qwen3.6-27b 30,9K/131.1K [
1］24% ｜36m ｜020

terry

@nami-ryuu 正常，显卡在prefill，没有缓存的话预填充要很久。

nami ryuu

@terry 老师，但是它在的decode的时候生成将近60000个字符之后系统强制停止的。Response truncated (finish_reason='length')，感觉它不知道啥时候停止，最后hermes把结果截断了。

terry

@nami-ryuu 这个正常，输出长度超过上限，被截断了，你问题是你在干什么，可以分段输出。另外我不拍片，我不是老师，我和你一样，是观众。

nami ryuu

@terry 我就问了他一个问题：“吉利领克08车机如何通过adb安装应用？“，deepseek v4 flash 调用的时候感觉也没那么时间长。其实开始的时候挺顺利的，就是到navigate google.com 这个工具调用的时候生成了60000多个字符才被hermes强制截断结束。感觉挺奇怪的。不过这个vulkan比rocm快好多。这个挺好的。

CHIA AN YANG

@nami-ryuu 你先用deepseek v4 flash幫你把hermes搜索工具設定好,跟把soul跟memory也寫好搜索的時候要跑哪些工具,避免本地模型調用工具能力不足的地方他會不斷重試跑老半天跑不出來,讓在線雲端api (ds4 flash)幫你把本地的工作流都設計好,之後你就可以爽用本地端的hermes agent,

抡锤者

看目前這社區越來越多人買7900XTX了，大家為了一個爽度token無限發與反應速度，這幾天折騰的過程分享給大家(win11+vulkan & ubuntu +rocm)

先鎖 GPU 時脈（需 sudo）

注意：不在 server 層設 sampling 參數（top-k/presence-penalty 會降低 MTP 接受率）