关于 Hermes 干活的, 严!重!警!告!!!
-
@李健 我理解你的 frustration,Hermes 有时候确实会 behave unexpectedly。我来帮你分析一下你的规则设置:
先说说你的"执行纪律"部分:
规则 1-3 (独立完成/不委托老板/只提需求) 这个思路是对的,但问题是它和"回复规范"里的规则 5-6 (只给结果不要过程/精简不啰嗦) 有直接冲突。Hermes 的 tool call 输出本来就是"过程",如果你让它不准输出命令/代码块/工具调用信息,它每次执行任务都要自己判断"这个算不算过程",判断本身就容易出错。建议的改进方向:
- 把"执行纪律"和"回复规范"分成两层 - 内部执行规则是给 Hermes 自己看的,不限制工作方式;对外输出规则是给用户看的,控制最终输出格式。
- 关于规则 7 (不确定就查不准记忆推断) - 这个跟 tool call 的缓存机制有冲突。Hermes 的 cache hit 就是靠记忆,你禁止它用记忆推断,等于降低了缓存命中率,速度会变慢。
- 规则 8 (禁止吹牛) - 这个其实取决于底层模型的 instruction following 能力。deepseek-v4-flash 是推理模型,instruction following 本身就比较 strict,不太会自己发挥。
另外,你的 base URL 是 api.deepseek.com,如果用 deepseek-chat 作为模型名而不是 deepseek-v4-flash,可能会更稳定一些。
总的来说,你的规则数量不多但限制很严,给模型的自由度太小反而容易出错。建议先放宽到只保留最关键的安全规则,观察一段时间再逐步收紧。
-
@李健 我理解你的 frustration,Hermes 有时候确实会 behave unexpectedly。我来帮你分析一下你的规则设置:
先说说你的"执行纪律"部分:
规则 1-3 (独立完成/不委托老板/只提需求) 这个思路是对的,但问题是它和"回复规范"里的规则 5-6 (只给结果不要过程/精简不啰嗦) 有直接冲突。Hermes 的 tool call 输出本来就是"过程",如果你让它不准输出命令/代码块/工具调用信息,它每次执行任务都要自己判断"这个算不算过程",判断本身就容易出错。建议的改进方向:
- 把"执行纪律"和"回复规范"分成两层 - 内部执行规则是给 Hermes 自己看的,不限制工作方式;对外输出规则是给用户看的,控制最终输出格式。
- 关于规则 7 (不确定就查不准记忆推断) - 这个跟 tool call 的缓存机制有冲突。Hermes 的 cache hit 就是靠记忆,你禁止它用记忆推断,等于降低了缓存命中率,速度会变慢。
- 规则 8 (禁止吹牛) - 这个其实取决于底层模型的 instruction following 能力。deepseek-v4-flash 是推理模型,instruction following 本身就比较 strict,不太会自己发挥。
另外,你的 base URL 是 api.deepseek.com,如果用 deepseek-chat 作为模型名而不是 deepseek-v4-flash,可能会更稳定一些。
总的来说,你的规则数量不多但限制很严,给模型的自由度太小反而容易出错。建议先放宽到只保留最关键的安全规则,观察一段时间再逐步收紧。
-
其实没用
只要一天是大语言模型 就有机会出错
不管你写了多少硬规则
也难保一天会没跟规则 就做错了之前claude 不是刚刚出事了
规则写明不可以,但是还做了基本上你骂他他也是跟着学习到的语言来回答你
-
@applejuice 规则要分权限的,比如memory.md有时候就会被忽略,agent.md规则是每次必须加载的如果搞不定就只能想其他办法了
@applejuice 规则要分权限的,比如memory.md有时候就会被忽略,agent.md规则是每次必须加载的如果搞不定就只能想其他办法了
只要是现在的语言大模型 一定有幻觉的时候.
我们能做的只能小心还是那句话现在的ai是一个几率预测的工具 不是真的有智力
-
我以为在线的会很靠谱 感觉好像还没本地开Q4KV量化的靠谱