抡锤者

bwghh

补充一点，测试了几个二进制版本，B9664版本的llamacpp vulkan 是速度最快的。最新的自编译版本B9755 速度也很快。两个版本之间的B975x 都会有10%左右的速度损失。应该是llamacpp主线在针对mtp做优化。

bwghh

好的，这个模板是从qwen3.5就在用的，主要是修复qwen系列工具调用标签的问题。
论坛好像没办法上传文件？
放在这里了：https://github.com/bemoons/KickRSS-Go/releases/download/kickRSS/fix-chat_template.tar.gz

bwghh

618 买的 7900xtx + 1200w金牌电源套装，6300左右。
有个闲置的老服务器，E52670 v2（原本是V1，听说没有pcie atomics，花了70块钱买了两块V2换上）64G ddr3，华硕Z9PA-D8主板，去年送人都没人要，今年拿来跑hermes了。
到货之后，就换上电源，插上显卡，开机。
配置如下：

Hardware: ASUS Z9PA-D8 + 2x E5-2670 V2 + 64GB DDR3 ECC + RX 7900 XTX 24GB
OS: Ubuntu 24.04 Server
Driver: Mesa 26.1.2 (RADV NAVI31)
Backend: Vulkan
llama.cpp: b9664 + 最新版自编译

两个模型：
Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_M.gguf
Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved-APEX-I-Compact.gguf
配对应的mmproj 。

启动脚本：
27B：

#!/bin/bash

# 1. 注入 AMD Vulkan 专属性能优化变量
export GGML_VK_ALLOW_GRAPHICS_QUEUE=1
export GGML_VK_VISIBLE_DEVICES=0

# 2. 启动服务
exec /data/llamacpp/llama-server-active \
   -m /data/models/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_M.gguf \
   --mmproj /data/models/mmproj-27B-F16.gguf \
   -ngl 999 \
   -c 131072\
   -np 1 \
   -ctk q8_0 -ctv q8_0 \
   -fa on \
   --image-min-tokens 1024 \
   --jinja \
   --chat-template-file /data/models/fix-chat_template.jinja \
   --spec-type draft-mtp --spec-draft-n-max 2 \
   --host 0.0.0.0 \
   --port 7890 \
   --api-key xxxxxxx \
   --alias qwen-36-27B\
   --metrics

35B：

#!/bin/bash

# 1. 注入 AMD Vulkan 专属性能优化变量
export GGML_VK_ALLOW_GRAPHICS_QUEUE=1
export GGML_VK_VISIBLE_DEVICES=0

# 2. 启动服务
exec /data/llamacpp/llama-server-active \
   -m /data/models/Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved-APEX-I-Compact.gguf \
   --mmproj /data/models/mmproj-35B-A3B-F16.gguf \
   -ngl 999 \
   -c 262144 \
   -np 1 \
   -b 2048 -ub 2048 \
   -ctk q4_0 -ctv q4_0 \
   -fa on \
   --cache-reuse 4096 \
   --image-min-tokens 1024 \
   --jinja \
   --chat-template-file /data/models/fix-chat_template.jinja \
   --host 0.0.0.0 \
   --port 7890 \
   --api-key xxxxxxx \
   --alias qwen-36-35BA3B \
   --metrics

速度情况：
Qwen3.6 35BA3B：开启后约剩余4G显存

简单测试了一个58000 token 大文本（约10万汉字）prefill 大概2000，decode 大概116-117。

简单测试问答与千字左右文本生成：decode速度大概 130+

图片分析速度跟大文本差不多，不浪费资源了。

Qwen3.6 27B，开启后约剩余1G显存

58000token 大文本：prefill 平均600，decode 大概45。

简单问答千字左右文本生成：decode 大概 70+

之前是用5090D32G vllm Qwen3.6-27B nvfp4量化。速度大概prefill 7000+ decode 200+。7900xtx 跑 35BA3B效果勉强能接近。目前就以35BA3B为主要模型在运行。

用途：
1 hermes 底座模型，配合修改过的jinja模板，实测没有出现bug，日常工作效果凑合。我不用hermes 开发，纯维护一些自动化脚本，rag库，搜索引擎服务之类的。
2 RSS重度使用者，vibe了一个自用的RSS阅读器，BYOK，无限token没心理负担，用llm实现快速新闻归类，新闻摘要，注意力等级标签等等。适合不喜欢推荐算法，希望保持大量阅读的用户：https://github.com/bemoons/KickRSS
3 沉浸式翻译，ocr，各种小ai应用等等。

抡锤者

bwghh

帖子