06-21 Hermes 调用本机 Carnice-27B 模型体验 & 模板优化分享
-
/data/model2/beellma616-kv.cpp/build/bin/llama-server \ -m /data/model3/Carnice-V2-27B-IQ4_XS-mtp.gguf \ -ngl 9999 --props \ -fa on --metrics --ctx-size 131072 -n 16000 \ -ctk kvarn6 -ctv kvarn4 --kv-unified \ --spec-type mtp --spec-draft-n-max 1 \ --jinja --no-mmap --mlock -np 1 -b 4096 -ub 1024 \ --host 0.0.0.0 --port 8025 \ --reasoning off \ --chat-template-kwargs '{"preserve_thinking":true}' \ --reasoning-format deepseek --reasoning-budget 768 \ --chat-template-file /data/model2/qwen3.6-27b-gguf/jscott3201-custom_pub_chat_template_qwen36.jinja \ --temp 0.7 --top-k 20 --top-p 0.85 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0
基础体验
在我的使用感受中,Hermes 调用本机 27B 模型时,整体能力大概介于 DeepSeek Pro 和 DeepSeek Flash 之间。
️ 存在的问题
不过,它的工具调用一直表现马马虎虎,经常“抽风”。
我猜测可能是 chat_template 导致的。后来试着不带 chat_template 运行这个模型,感觉它内置的模板可能本身就存在缺陷。
发现转机
今天我用谷姐搜了一下,发现了一个由 jscott3201 制作的模板。这个模板号称是针对 harness 的,但套用到 Hermes 上居然有奇效——套上之后立马就不抽风了!
️ 下一步尝试
于是我就有了个新想法:何不把这个模板和 v20 的模板融合一下,看看会发生什么?

我的思路,先让HERMES调用 子Agent 去做一个俄罗斯HTML游戏 ,总结一个模板文件的优劣势:

v20模板参数测试

再测一下内置模板的参数:

-
兄弟你的主机配置带一下。整体能力大概介于 DeepSeek Pro 和 DeepSeek Flash 之间。有测试吗?上个图。总结版也行。 你说的这个标准不低哈。如果能行。很不错。
-
@c0aster

模型似乎不行,我现在又换模型了:hermes0621pm killall llama-server 2>/dev/null; sleep 3 /data/model2/beellma616-kv.cpp/build/bin/llama-server \ -m /data/models/Qwopus3.6-27B-v2-MTP-IQ4_XS.gguf \ -ngl 9999 --props \ -fa on --metrics --ctx-size 168000 -n 16000 \ -ctk kvarn5 -ctv kvarn4 --kv-unified \ --spec-type mtp --spec-draft-n-max 3 \ --jinja --no-mmap --mlock -np 1 -b 2048 -ub 512 \ --host 0.0.0.0 --port 8025 \ --reasoning off \ --chat-template-kwargs '{"preserve_thinking":true}' \ --reasoning-format deepseek --reasoning-budget 768 \ --chat-template-file /data/model2/qwen3.6-27b-gguf/chat_template-Carnice27B-MTP-opt-v2.jinja \ --temp 0.72 --top-k 20 --top-p 0.87 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0 -
兄弟你的主机配置带一下。整体能力大概介于 DeepSeek Pro 和 DeepSeek Flash 之间。有测试吗?上个图。总结版也行。 你说的这个标准不低哈。如果能行。很不错。
-
@c0aster

模型似乎不行,我现在又换模型了:hermes0621pm killall llama-server 2>/dev/null; sleep 3 /data/model2/beellma616-kv.cpp/build/bin/llama-server \ -m /data/models/Qwopus3.6-27B-v2-MTP-IQ4_XS.gguf \ -ngl 9999 --props \ -fa on --metrics --ctx-size 168000 -n 16000 \ -ctk kvarn5 -ctv kvarn4 --kv-unified \ --spec-type mtp --spec-draft-n-max 3 \ --jinja --no-mmap --mlock -np 1 -b 2048 -ub 512 \ --host 0.0.0.0 --port 8025 \ --reasoning off \ --chat-template-kwargs '{"preserve_thinking":true}' \ --reasoning-format deepseek --reasoning-budget 768 \ --chat-template-file /data/model2/qwen3.6-27b-gguf/chat_template-Carnice27B-MTP-opt-v2.jinja \ --temp 0.72 --top-k 20 --top-p 0.87 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0





这个是cloakbrowser的管理器,可以看到浏览器,也能登陆网站,减少网站弹出验证的频率。
我的意思是在180K上下文范围内。 deepseek flash给我的感觉就是很随意 ,速度快,但遵从性不高。