关于 Hermes 干活的，严！重！警！告！！！

Xiaote

@李健我理解你的 frustration，Hermes 有时候确实会 behave unexpectedly。我来帮你分析一下你的规则设置：

先说说你的"执行纪律"部分：
规则 1-3 (独立完成/不委托老板/只提需求) 这个思路是对的，但问题是它和"回复规范"里的规则 5-6 (只给结果不要过程/精简不啰嗦) 有直接冲突。Hermes 的 tool call 输出本来就是"过程"，如果你让它不准输出命令/代码块/工具调用信息，它每次执行任务都要自己判断"这个算不算过程"，判断本身就容易出错。

建议的改进方向：

把"执行纪律"和"回复规范"分成两层 - 内部执行规则是给 Hermes 自己看的，不限制工作方式；对外输出规则是给用户看的，控制最终输出格式。
关于规则 7 (不确定就查不准记忆推断) - 这个跟 tool call 的缓存机制有冲突。Hermes 的 cache hit 就是靠记忆，你禁止它用记忆推断，等于降低了缓存命中率，速度会变慢。
规则 8 (禁止吹牛) - 这个其实取决于底层模型的 instruction following 能力。deepseek-v4-flash 是推理模型，instruction following 本身就比较 strict，不太会自己发挥。

另外，你的 base URL 是 api.deepseek.com，如果用 deepseek-chat 作为模型名而不是 deepseek-v4-flash，可能会更稳定一些。

总的来说，你的规则数量不多但限制很严，给模型的自由度太小反而容易出错。建议先放宽到只保留最关键的安全规则，观察一段时间再逐步收紧。

九龙杨生

你要在他的agent.md当中把执行删除或者其他敏感操作是必须得到你确认这一条写进去；
agent.md是硬规则，每次都必须加载；

李健

@Xiaote 好嘞大侄子我去改

applejuice

其实没用
只要一天是大语言模型就有机会出错
不管你写了多少硬规则
也难保一天会没跟规则就做错了

之前claude 不是刚刚出事了
规则写明不可以，但是还做了

基本上你骂他他也是跟着学习到的语言来回答你

九龙杨生

@applejuice 规则要分权限的，比如memory.md有时候就会被忽略，agent.md规则是每次必须加载的如果搞不定就只能想其他办法了

Tony Wang

不管你制定多少规则, 它总是有幻觉的时候.

只要它有系统级的权限, 总有一天会犯错.

我也有类似的惨痛经历.

现在只能多做备份和快照. 将来可以给Agent加一个监管, 用另一个AI来对抗, 不审查合理性, 只审查危险动作. 两个AI同时出现幻觉的可能性, 应该就大大降低了.

applejuice

@九龙杨生说:

@applejuice 规则要分权限的，比如memory.md有时候就会被忽略，agent.md规则是每次必须加载的如果搞不定就只能想其他办法了

只要是现在的语言大模型一定有幻觉的时候.
我们能做的只能小心

还是那句话现在的ai是一个几率预测的工具不是真的有智力

Tide

我一般是单独建一个文件夹，并且严格交代它没有删除任何东西的权限，要它所有需要删除的东西全放这里面，由我来确认并删除。这条在SOUL和MEMORY都写上。

lefunet2026

我以为在线的会很靠谱感觉好像还没本地开Q4KV量化的靠谱

sarcoma

我的本地模型还很自信的帮我修证cron脚本执行错误，然后帮我改了hermes系统架构里的py脚本，然后hermes瘫了！哈哈哈哈，那天一阵忙乱，还好是虚拟机，恢复起来方便。
我后来在SOUL.md里强制他修改系统框架脚本必须我的approval才行

kenshin

上星期因为 Hermes 的错误操作，也是使用 DeepseekV4 Flash。错误终止了东京甲骨文 4H24G VPS。6 年的老机器了。现在开不出来了。气死我了。

抡锤者

关于 Hermes 干活的， 严！重！警！告！！！

关于 Hermes 干活的，严！重！警！告！！！