06-21 Hermes 调用本机 Carnice-27B 模型体验 & 模板优化分享

stxpnet

     /data/model2/beellma616-kv.cpp/build/bin/llama-server \
  -m /data/model3/Carnice-V2-27B-IQ4_XS-mtp.gguf \
  -ngl 9999 --props \
  -fa on --metrics  --ctx-size 131072 -n 16000  \
  -ctk kvarn6 -ctv kvarn4 --kv-unified \
  --spec-type mtp --spec-draft-n-max 1 \
  --jinja --no-mmap --mlock -np 1   -b 4096 -ub 1024 \
  --host 0.0.0.0 --port 8025 \
  --reasoning off \
    --chat-template-kwargs '{"preserve_thinking":true}' \
  --reasoning-format deepseek --reasoning-budget 768 \
  --chat-template-file /data/model2/qwen3.6-27b-gguf/jscott3201-custom_pub_chat_template_qwen36.jinja \
   --temp 0.7  --top-k 20 --top-p 0.85 --min-p 0.0  --presence-penalty 1.5 --repeat-penalty 1.0

基础体验
在我的使用感受中，Hermes 调用本机 27B 模型时，整体能力大概介于 DeepSeek Pro 和 DeepSeek Flash 之间。

️ 存在的问题
不过，它的工具调用一直表现马马虎虎，经常“抽风”。
我猜测可能是 chat_template 导致的。后来试着不带 chat_template 运行这个模型，感觉它内置的模板可能本身就存在缺陷。

发现转机
今天我用谷姐搜了一下，发现了一个由 jscott3201 制作的模板。这个模板号称是针对 harness 的，但套用到 Hermes 上居然有奇效——套上之后立马就不抽风了！

️ 下一步尝试
于是我就有了个新想法：何不把这个模板和 v20 的模板融合一下，看看会发生什么？

我的思路，先让HERMES调用子Agent 去做一个俄罗斯HTML游戏，总结一个模板文件的优劣势:

v20模板参数测试

再测一下内置模板的参数：

williamlouis

兄弟你的主机配置带一下。整体能力大概介于 DeepSeek Pro 和 DeepSeek Flash 之间。有测试吗？上个图。总结版也行。你说的这个标准不低哈。如果能行。很不错。

stxpnet

它的自评总结在这里。附上三份template的压缩包.
注意，此份template尚在测试中，希望大家一起抽时间完善它。
它可能只适合于我帖子开头提到的模型。
如果要改进它建议一定要开deepseek v4 pro或同等能力的在线大模型。

论坛似乎无法上传rar或ZIP附件，我直接把模板放这里了：
https://wormhole.app/a7znY3#uigQTQtA9wLcnGXaKCpD-Q

stxpnet

新模板的效果：
它之所以一直不出结果，是因为我对这个PROFILE的SOUL有定义：

旧的模板文件，调用不了几下就会出这样那样的错，还会撑爆上下文浪费TOKEN。

c0aster

牛逼，赶紧替换试试

stxpnet

@c0aster
模型似乎不行，我现在又换模型了：

hermes0621pm
   killall llama-server 2>/dev/null; sleep 3
         /data/model2/beellma616-kv.cpp/build/bin/llama-server \
  -m  /data/models/Qwopus3.6-27B-v2-MTP-IQ4_XS.gguf \
  -ngl 9999 --props \
  -fa on --metrics  --ctx-size 168000 -n 16000  \
  -ctk kvarn5 -ctv kvarn4 --kv-unified \
  --spec-type mtp --spec-draft-n-max 3 \
  --jinja --no-mmap --mlock -np 1   -b 2048 -ub 512 \
  --host 0.0.0.0 --port 8025 \
  --reasoning off \
    --chat-template-kwargs '{"preserve_thinking":true}' \
  --reasoning-format deepseek --reasoning-budget 768 \
    --chat-template-file /data/model2/qwen3.6-27b-gguf/chat_template-Carnice27B-MTP-opt-v2.jinja \
   --temp 0.72  --top-k 20 --top-p 0.87 --min-p 0.0  --presence-penalty 1.5 --repeat-penalty 1.0

stxpnet

这个模型和参数比较稳一些，我让HERMES自己逛reddit帮我找找有用的信息。哈哈

stxpnet

这个是cloakbrowser的管理器，可以看到浏览器，也能登陆网站，减少网站弹出验证的频率。

stxpnet

@williamlouis 我的意思是在180K上下文范围内。 deepseek flash给我的感觉就是很随意，速度快，但遵从性不高。
PRO不用说，是deepseek的当红产品，能力肯定必须在线。
我的配置是64G DDR4内存，24G RTX3090，目前开350瓦，在跑了快90K上下文时，生成速度大概还是50T/S左右。

c0aster

@stxpnet 那你现在这个配置，hermes反应快不，我的得等几分钟才开始干活

stxpnet

@c0aster 为啥要等几分钟？有问题建议让deepseek pro帮你排查吧，刚开始可能还是要交点学费的，后面跑顺了就好了。

c0aster

分析是KV缓存没命中然后重新生成，并且hermes传了至少65K的上下文

stxpnet

@c0aster 那有两种可能，你的skill太多。另一种是记忆太爆满了，hermes为了更贴合你的需求，在给大模型发送的时候带上了太多至少 30K token，而且这些token之间的相关性不大，一旦进入LLM，就会无脑开始疯狂运算，如果你温度没放高一些的话。显卡就首次填充肯定要很长时间的。

抡锤者

06-21 Hermes 调用本机 Carnice-27B 模型体验 & 模板优化分享