7900 XTX + Qwen3.6-27B：Ubuntu + ROCm / Vulkan / MTP 64/128/256K 全部實測整理

AGI

跑128k的时候，显存还有1.7G左右空闲的。

AGI

把--spec-draft-n-max 2修改为3以后，又测试了下：

截屏2026-06-07 13.18.44.png

128k n-max=3 d120000 Benchmark

LLM Command

llama-server \
  -m /root/models/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf \
  --mmproj /root/models/mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf \
  -c 131072 \
  --parallel 1 \
  -b 2048 \
  -ub 256 \
  -fa 1 \
  -ngl 99 \
  -t 22 \
  --cache-type-k q8_0 \
  --cache-type-v q4_0 \
  --spec-type draft-mtp \
  --spec-draft-n-max 3 \
  --no-mmap \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --host 0.0.0.0 \
  --port 8080

Test Command

uvx llama-benchy \
  --base-url "http://127.0.0.1:8080/v1" \
  --model "Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf" \
  --tokenizer "Qwen/Qwen3-32B" \
  --pp 2048 \
  --tg 480 \
  --depth 120000 \
  --runs 1 \
  --latency-mode generation \
  --skip-coherence \
  --concurrency 1 \
  --save-result /root/bench-results/qwen36-27b-llamacpp-amd-rx7900xtx-128k-nmax3-d120000.md \
  --format md

Benchmark Result

test	t/s	peak t/s	ttfr	est_ppt	e2e_ttft
pp2048 @ d120000	353.80		352493.90 ms	352253.89 ms	352493.90 ms
tg480 @ d120000	35.26	48.00

Server Timing

prompt eval time = 351710.86 ms / 124629 tokens
prompt speed     = 354.35 tokens/s

eval time        = 13601.37 ms / 480 tokens
generation speed = 35.29 tokens/s

total time       = 365312.23 ms / 125109 tokens

draft acceptance = 0.70961
accepted/generated = 325 / 458

truncated = 0

写代码开始速度能上70+，稳定在50+，很满足了

williamlouis

后天才能到货。。。。让你搞的我热血沸腾了。我将在 ubuntu 上跑。版本还是24.太新的版本都不适合我。前期测试有可能上个桌面版方便给你们做报告。或者直接在 Mac上调用。新卡到了我 Windows 跑下体质。

williamlouis

我补充的方案：对。7900XTX 只暴露算力模式接口，Hermes 负责调度。

7900XTX 算力节点准备

两个 systemd 服务单元（互斥，同一端口）：

/etc/systemd/system/[email protected]：

[Unit]
Description=LLaMA Server %i mode
After=network.target

[Service]
Type=simple
ExecStartPre=/bin/sleep 2
ExecStart=/usr/local/bin/llama-server \
  -m /root/models/Qwen3.6-27B-IQ4_XS.gguf \
  -ngl 99 --no-warmup --host 0.0.0.0 --port 8080 \
  %i
Restart=on-failure

[Install]
WantedBy=multi-user.target

启动参数文件：

/etc/systemd/system/[email protected]/override.conf：

[Service]
ExecStart=
ExecStart=/usr/local/bin/llama-server \
  -m /root/models/Qwen3.6-27B-IQ4_XS.gguf \
  -c 8192 --cache-type-k q8_0 --cache-type-v q8_0 \
  -ngl 99 --no-warmup --host 0.0.0.0 --port 8080

/etc/systemd/system/[email protected]/override.conf：

[Service]
ExecStart=
ExecStart=/usr/local/bin/llama-server \
  -m /root/models/Qwen3.6-27B-IQ4_XS.gguf \
  -c 131072 --cache-type-k q4_0 --cache-type-v q8_0 \
  -ngl 99 --no-warmup --host 0.0.0.0 --port 8080

Hermes 可调用的切换命令

# 切 8K 交互模式
systemctl stop llama-dev@128k; systemctl start llama-dev@8k

# 切 128K 批处理模式  
systemctl stop llama-dev@8k; systemctl start llama-dev@128k

Hermes 切完后等 5 秒，curl http://7900xtx-ip:8080/health 确认恢复即可下发任务。

7900XTX 只暴露 8K/128K 两个 systemd 服务单元，Hermes 根据任务类型 systemctl 切换，等端口恢复后调 API。算力节点无状态，切换逻辑全在 Hermes 侧。
这样基本就可以跑了。具体效果我会出一版帖子。
这个方案可以实现工作机 Mac mini Hermes 工作的需要。

566656661

@williamlouis

這個思路不錯誒, 之前我都是一個暴力超長上下文就算

也許可以讓自己的hermes在我上下班的時候自己切換

williamlouis

8K/128K
8K是对话常态化
128K 作为长任务分析。比如多文件的处理。是这么用的。

AGI

Key 和 Value到底哪个可以用4bit而不影响智力？我一直是key中4bit，有人说应该是value用4bit

AGI

我上面之前的参数有误，key应该用8bit，value应该用4bit，已经更正了，仅限于llama.cpp，vllm好像不支持分开设置

qiao zhifeng

今天试了下vulkan，qwen27b q4，显卡7900xtx，64k上下文，跑hermes agent，prefill 吊打rocm环境。都是从0开始加载50k和60k的提示词，完全不像ai和社区说的vulkan的首字慢。
vulkan的：prompt processing, n_tokens = 62284, progress = 1.00, t = 108.65 s / 573.23 tokens per second
rocm的：prompt processing, n_tokens = 52604, progress = 1.00, t = 314.20 s / 167.42 tokens per second
参数： -mg 0
--temp 0.3
--ctx-size 65536
-b 2048
-ub 2048
--top-p 0.8
--min-p 0.05
--repeat-penalty 1.1
--cache-type-k q8_0
--cache-type-v q8_0
--flash-attn on
--cache-ram -1 --ctx-checkpoints 32 --cache-idle-slots
--parallel 1
--cont-batching
--timeout 600

566656661

@qiao-zhifeng

本來Vulkan的對A卡的支持度就好過ROCm的, reddit上面基本一堆人常駐vulkan

別太看重ROCm帶來的加速吧, 社區支援跟優化差太遠了

stxpnet

我目前自认为的最佳配置,3090 24G显卡,开了思考,思考预算是3072tokens,最大上下文配置为168K,通过了测试.我的K V CACHE都是Q8. 总用时70多秒.我觉得还行

xiaoyoutiao

@agi 新手请教，Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf我在huggingface找了一圈也没有找到，你在哪里下载? 在HauhauCS的主页下看到Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf 没有MTP版本

AGI

@xiaoyoutiao

奇怪，我也找不到了
搜索了下下载命令，文件还能下载：wget https://huggingface.co/crotron/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP/resolve/main/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf

xiaoyoutiao

感谢@AGI https://huggingface.co/crotron/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP/tree/main 下面的模型都在，下载了

AGI

@xiaoyoutiao

自己部署llm很大的原因是这个无审查版本，现在的gpt和claude，稍微越界，就不回答了。可惜现在qwen智商一般，用的qwopus一样写代码垃圾，等以后新版本吧。

williamlouis

我也测试了。这套方案是可行的。

抡锤者

7900 XTX + Qwen3.6-27B：Ubuntu + ROCm / Vulkan / MTP 64/128/256K 全部實測整理

128k n-max=3 d120000 Benchmark

LLM Command

Test Command

Benchmark Result

Server Timing

7900XTX 算力节点准备

Hermes 可调用的切换命令

7900XTX 算力节点准备

Hermes 可调用的切换命令