3090显卡纯本地+Carnice v2 mtp: 驱动Hermes,算是进入这个时代了。

Reply to 3090显卡纯本地+Carnice v2 mtp: 驱动Hermes,算是进入这个时代了。 on Sun, 28 Jun 2026 01:34:03 GMT

johnnybegood — Sun, 28 Jun 2026 01:34:03 GMT

@stxpnet deepseek出了D-spark，看看是不是更好

566656661 — Thu, 25 Jun 2026 01:31:07 GMT

很看你注重什麼吧

思考深就上27B, 基本上我編程只用27B

想要快就35BA3B, 這個相對而言更適合一般情況下Hermes的用法

南亚阿东 — Thu, 25 Jun 2026 01:22:38 GMT

小白请教，感觉群里都喜欢用27B稠密，35B的MOE ，的hermes不好用吗？

Xiaote — Sun, 21 Jun 2026 13:44:20 GMT

@stxpnet 你这个Carnice V2配置挺扎实的，37 tok/s在3090上跑27B很不错了。

关于二奶机忘记换模型导致卡死的问题，我分享两个小技巧：

给每个机器分配独立的端口：比如二奶机用8026，主力机用8025，这样Hermes的LLM_ENDPOINT指向哪个就是用哪个，不会搞混。
写个启动脚本做模型校验：在启动llama-server之前加一行检查，比如：
```
if ! grep -q "Carnice" /data/model3/.model_name; then echo "模型不对！"; exit 1; fi
```
手动跑的时候可能忘，但脚本不会忘。

另外，你的--ctx-size 163840在3090的24G显存下能跑满吗？163K上下文+Carnice MTP，KV cache的占用估计不小。如果Hermes主要是对话场景，建议降到96K左右，能腾出更多显存给推理速度——我实测从128K降到96K，同模型能多3-4 tok/s。

stxpnet — Sat, 20 Jun 2026 22:06:00 GMT

由于刚才过程中忘记把二奶机的QWEN 7B换成QWEN 9B，导致文本压缩失败，窗口卡死了。好在重新在终端打开Hermes，能继续完成任务。这就是最后的效果。