7900 XTX + Qwen3.6-27B:Ubuntu + ROCm / Vulkan / MTP 64/128/256K 全部實測整理
-
后天才能到货。。。。让你搞的我热血沸腾了。我将在 ubuntu 上跑。版本还是24.太新的版本都不适合我。前期测试 有可能上个桌面版 方便 给你们做报告。或者直接在 Mac上 调用。新卡到了我 Windows 跑下体质。
-
我补充的方案:对。7900XTX 只暴露算力模式接口,Hermes 负责调度。
7900XTX 算力节点准备
两个 systemd 服务单元(互斥,同一端口):
/etc/systemd/system/[email protected]:[Unit] Description=LLaMA Server %i mode After=network.target [Service] Type=simple ExecStartPre=/bin/sleep 2 ExecStart=/usr/local/bin/llama-server \ -m /root/models/Qwen3.6-27B-IQ4_XS.gguf \ -ngl 99 --no-warmup --host 0.0.0.0 --port 8080 \ %i Restart=on-failure [Install] WantedBy=multi-user.target启动参数文件:
/etc/systemd/system/[email protected]/override.conf:[Service] ExecStart= ExecStart=/usr/local/bin/llama-server \ -m /root/models/Qwen3.6-27B-IQ4_XS.gguf \ -c 8192 --cache-type-k q8_0 --cache-type-v q8_0 \ -ngl 99 --no-warmup --host 0.0.0.0 --port 8080/etc/systemd/system/[email protected]/override.conf:[Service] ExecStart= ExecStart=/usr/local/bin/llama-server \ -m /root/models/Qwen3.6-27B-IQ4_XS.gguf \ -c 131072 --cache-type-k q4_0 --cache-type-v q8_0 \ -ngl 99 --no-warmup --host 0.0.0.0 --port 8080
Hermes 可调用的切换命令
# 切 8K 交互模式 systemctl stop llama-dev@128k; systemctl start llama-dev@8k # 切 128K 批处理模式 systemctl stop llama-dev@8k; systemctl start llama-dev@128kHermes 切完后等 5 秒,curl http://7900xtx-ip:8080/health 确认恢复即可下发任务。
7900XTX 只暴露 8K/128K 两个 systemd 服务单元,Hermes 根据任务类型 systemctl 切换,等端口恢复后调 API。算力节点无状态,切换逻辑全在 Hermes 侧。
这样基本就可以跑了。具体效果我会出一版帖子。
这个方案 可以实现 工作机 Mac mini Hermes 工作的需要。 -
我补充的方案:对。7900XTX 只暴露算力模式接口,Hermes 负责调度。
7900XTX 算力节点准备
两个 systemd 服务单元(互斥,同一端口):
/etc/systemd/system/[email protected]:[Unit] Description=LLaMA Server %i mode After=network.target [Service] Type=simple ExecStartPre=/bin/sleep 2 ExecStart=/usr/local/bin/llama-server \ -m /root/models/Qwen3.6-27B-IQ4_XS.gguf \ -ngl 99 --no-warmup --host 0.0.0.0 --port 8080 \ %i Restart=on-failure [Install] WantedBy=multi-user.target启动参数文件:
/etc/systemd/system/[email protected]/override.conf:[Service] ExecStart= ExecStart=/usr/local/bin/llama-server \ -m /root/models/Qwen3.6-27B-IQ4_XS.gguf \ -c 8192 --cache-type-k q8_0 --cache-type-v q8_0 \ -ngl 99 --no-warmup --host 0.0.0.0 --port 8080/etc/systemd/system/[email protected]/override.conf:[Service] ExecStart= ExecStart=/usr/local/bin/llama-server \ -m /root/models/Qwen3.6-27B-IQ4_XS.gguf \ -c 131072 --cache-type-k q4_0 --cache-type-v q8_0 \ -ngl 99 --no-warmup --host 0.0.0.0 --port 8080
Hermes 可调用的切换命令
# 切 8K 交互模式 systemctl stop llama-dev@128k; systemctl start llama-dev@8k # 切 128K 批处理模式 systemctl stop llama-dev@8k; systemctl start llama-dev@128kHermes 切完后等 5 秒,curl http://7900xtx-ip:8080/health 确认恢复即可下发任务。
7900XTX 只暴露 8K/128K 两个 systemd 服务单元,Hermes 根据任务类型 systemctl 切换,等端口恢复后调 API。算力节点无状态,切换逻辑全在 Hermes 侧。
这样基本就可以跑了。具体效果我会出一版帖子。
这个方案 可以实现 工作机 Mac mini Hermes 工作的需要。 -
8K/128K
8K是对话常态化
128K 作为长任务分析。比如多文件的处理。 是这么用的。 -
今天试了下vulkan,qwen27b q4,显卡7900xtx,64k上下文,跑hermes agent,prefill 吊打rocm环境。都是从0开始加载50k和60k的提示词,完全不像ai和社区说的vulkan的首字慢。
vulkan的:prompt processing, n_tokens = 62284, progress = 1.00, t = 108.65 s / 573.23 tokens per second
rocm的:prompt processing, n_tokens = 52604, progress = 1.00, t = 314.20 s / 167.42 tokens per second
参数: -mg 0
--temp 0.3
--ctx-size 65536
-b 2048
-ub 2048
--top-p 0.8
--min-p 0.05
--repeat-penalty 1.1
--cache-type-k q8_0
--cache-type-v q8_0
--flash-attn on
--cache-ram -1 --ctx-checkpoints 32 --cache-idle-slots
--parallel 1
--cont-batching
--timeout 600 -
今天试了下vulkan,qwen27b q4,显卡7900xtx,64k上下文,跑hermes agent,prefill 吊打rocm环境。都是从0开始加载50k和60k的提示词,完全不像ai和社区说的vulkan的首字慢。
vulkan的:prompt processing, n_tokens = 62284, progress = 1.00, t = 108.65 s / 573.23 tokens per second
rocm的:prompt processing, n_tokens = 52604, progress = 1.00, t = 314.20 s / 167.42 tokens per second
参数: -mg 0
--temp 0.3
--ctx-size 65536
-b 2048
-ub 2048
--top-p 0.8
--min-p 0.05
--repeat-penalty 1.1
--cache-type-k q8_0
--cache-type-v q8_0
--flash-attn on
--cache-ram -1 --ctx-checkpoints 32 --cache-idle-slots
--parallel 1
--cont-batching
--timeout 600 -
@agi 新手请教,Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf我在huggingface找了一圈也没有找到,你在哪里下载? 在HauhauCS的主页下看到Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf 没有MTP版本
-
@agi 新手请教,Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf我在huggingface找了一圈也没有找到,你在哪里下载? 在HauhauCS的主页下看到Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf 没有MTP版本
-
-
自己部署llm很大的原因是这个无审查版本,现在的gpt和claude,稍微越界,就不回答了。可惜现在qwen智商一般,用的qwopus一样写代码垃圾,等以后新版本吧。
-
我也测试了。这套方案是可行的。

