请问有大神分享一下Hermes agent创建“团队”的教程吗？

demo

刚在本地跑通Qwen3.6-27B-heretic-int4 模型，运行在X99洋垃圾+RTX 4080 SUPER 32G上。128K 上下文窗口，INT4 量化版本。由于是刚接触agent，调试了几天，觉得单任务的Hermes经常出现幻觉，特别是对于我自己也不了解的领域，经常被Hermes骗，也不知道是不是自己没调试好的原因。
在B站寻找解决幻觉问题的过程，发现多角色团队分工协作的优化思路不错，但是B站上很多都是概念性的，想深入了解基本都是卖课的私域，而且大部分都是小号引流，觉得信不过。特此向各位大佬请教相关实操方法。
（想着帖子格式好看点，内容开头打了4个空格，结果自动进入了代码框模式，给几位浏览了帖子的大佬造成不好的体验，不好意思哈）

williamlouis

有幻觉和角色团队分工协作有关系吗？
这是个大众问题。
在确定 Hermes 不能换的情况下。

量化精度损失被 Agent 环节放大
INT4 对 27B 模型的推理能力已经有明显压制，尤其是长上下文（128K）下，KV Cache 压缩后模型对"自己是否已调用工具""工具返回了什么"的记忆会模糊。Hermes 的单任务链没有中间校验层，模型记错一步就会顺着编下去。
Hermes 的单任务设计缺乏"自我纠错"
单任务意味着一次规划、一次执行、一次总结。如果工具调用失败或返回空，模型不会自动重试或质疑结果，而是倾向于用训练数据里的"常见答案"脑补填充。你不熟悉的领域正好无法识别这种脑补。
工具描述和系统提示词大概率是短板
本地部署时，Hermes 默认的系统提示词（system prompt）通常没有针对 Qwen3.6 做适配。Qwen 系列的工具调用格式（如 <tool_call>）和 Hermes 的模板如果不完全匹配，模型在"该调用工具"和"该直接回答"的边界上会犹豫，最终选择直接胡说。
没有外部验证闭环
你被骗的核心原因是：模型输出无法自动交叉验证。生产级 Agent 通常有"执行-观察-反思"循环（ReAct / Reflexion），Hermes 的单任务模式砍掉了观察反思环节。
自己打字太费劲。中间用AI生成好了给你。

williamlouis

直接上 Dify 社区版

Hermes 单任务	Dify 工作流
一次规划、一次执行、直接输出	可拆成"检索→推理→验证→输出"多节点
模型记错工具结果只能继续编	每个节点可设"不满足条件就中断/重试"
无法强制标注来源	能在提示词层锁死"必须引用知识库或工具返回"
没有中间状态可见	每一步输入输出在 UI 里全白盒，方便你对照哪里开始胡说

我人脑校对了下。没问题。

? 离线

所谓的“团队”本质上就是子Agent。这个应用思路不是特别符合Hermes Agent的核心架构立意。

如果想最大化的使用子Agent、Agent Team、蜂群这种概念，应该用OpenClaw。

如果让我主观来判断你所谓的“被骗”，有几点值得优化。
1、你得提出一些可量化的需求。尽量少让他去“判断、分析”。而是让他产出可量化的数据。
2、你的27B量化的太狠。量化太狠精度损失的过于明显。
3、有可能你提出的问题太泛泛了，导致128K的上下文不够，太早触发了上下文压缩，导致信息损失。

demo

@williamlouis 说:

有幻觉和角色团队分工协作有关系吗？
这是个大众问题。
在确定 Hermes 不能换的情况下。

量化精度损失被 Agent 环节放大
INT4 对 27B 模型的推理能力已经有明显压制，尤其是长上下文（128K）下，KV Cache 压缩后模型对"自己是否已调用工具""工具返回了什么"的记忆会模糊。Hermes 的单任务链没有中间校验层，模型记错一步就会顺着编下去。

Hermes 的单任务设计缺乏"自我纠错"
单任务意味着一次规划、一次执行、一次总结。如果工具调用失败或返回空，模型不会自动重试或质疑结果，而是倾向于用训练数据里的"常见答案"脑补填充。你不熟悉的领域正好无法识别这种脑补。

工具描述和系统提示词大概率是短板
本地部署时，Hermes 默认的系统提示词（system prompt）通常没有针对 Qwen3.6 做适配。Qwen 系列的工具调用格式（如 <tool_call>）和 Hermes 的模板如果不完全匹配，模型在"该调用工具"和"该直接回答"的边界上会犹豫，最终选择直接胡说。

没有外部验证闭环
你被骗的核心原因是：模型输出无法自动交叉验证。生产级 Agent 通常有"执行-观察-反思"循环（ReAct / Reflexion），Hermes 的单任务模式砍掉了观察反思环节。
自己打字太费劲。中间用AI生成好了给你。

对的，就是想补充创建观察-反思等类似这些角色，可以让他们一个任务多角色参与，在Hermes内部形成一个“团队”工作流，减小出现幻觉的概率。

williamlouis

你看老王的解释。。。我说的很复杂。没点到点上。你理解不了？

williamlouis

@demo 我想说的是。你不需要搞那个什么团队分工。没有任何意义。你被某博主洗脑了？

demo

@王一民说:

所谓的“团队”本质上就是子Agent。这个应用思路不是特别符合Hermes Agent的核心架构立意。

如果想最大化的使用子Agent、Agent Team、蜂群这种概念，应该用OpenClaw。

如果让我主观来判断你所谓的“被骗”，有几点值得优化。
1、你得提出一些可量化的需求。尽量少让他去“判断、分析”。而是让他产出可量化的数据。
2、你的27B量化的太狠。量化太狠精度损失的过于明显。
3、有可能你提出的问题太泛泛了，导致128K的上下文不够，太早触发了上下文压缩，导致信息损失。

王哥，现在我举个实际的例子：我发送指令“设计一个网页，主要功能是检测轮转动态代理端口指向的国家的IP池量有多大;根据每个国家IP数量的不同，列出排名。”Hermes给我一顿思考后完成的网页功能只有检测轮转动态代理端口的连通性和延迟多少，其他功能需求全忘了做。然后我再提示他“你的网页根本没有自动统计每个国家的唯一 IP 数量，添加按测试整体数量降序排名功能”这条命令开始，他就胡编乱造，代理检测功能都连不通了。
这样的命令对于我现在的模型来说，太泛了吗？

demo

@williamlouis 说:

@demo 我想说的是。你不需要搞那个什么团队分工。没有任何意义。你被某博主洗脑了？

洗脑还算不上，只是我刚开始接触AI，没有对此类信息的判断能力

? 离线

@demo 针对你的这个需求，我个人有几个思路。你可以参考看看：
1、用claude code或者openCode这种Coding场景专用的工具来做。
2、你的这个需求，有部分功能是纯html文件做不到的。相当于你的提示词“设计一个网页”，“你的网页根本没有xxx”有很严重的反向作用。
3、对于qwen-27B这种级别的模型，他的plan能力其实还是很弱的。所以对于localLLM，我的建议还是只做执行。就是通过公网API跑通流程和设计，包括skill。qwen3.6-27B只负责驱动hermes去调用即可。

所以综上，针对于你的这个需求，我个人的执行方式是，通过claude code，使用deepseek-v4-pro模型配合max的effort（思考长度），进行系统设计工作，然后使用deepseek-v4-flash，进行plan的执行。以及后续的程序部署。最终通知hermes告知其有这么一个网页+后端API，供其使用。

? 离线

当然，如果你想的话，hermes是有调用claude code与openCode的自带skill的，你可以让hermes去驱动claude code等去编程，但是我个人不太喜欢这种误差累积的感觉，所以我还是比较亲历亲为的。

demo

@王一民说:

@demo 针对你的这个需求，我个人有几个思路。你可以参考看看：
1、用claude code或者openCode这种Coding场景专用的工具来做。
2、你的这个需求，有部分功能是纯html文件做不到的。相当于你的提示词“设计一个网页”，“你的网页根本没有xxx”有很严重的反向作用。
3、对于qwen-27B这种级别的模型，他的plan能力其实还是很弱的。所以对于localLLM，我的建议还是只做执行。就是通过公网API跑通流程和设计，包括skill。qwen3.6-27B只负责驱动hermes去调用即可。

所以综上，针对于你的这个需求，我个人的执行方式是，通过claude code，使用deepseek-v4-pro模型配合max的effort（思考长度），进行系统设计工作，然后使用deepseek-v4-flash，进行plan的执行。以及后续的程序部署。最终通知hermes告知其有这么一个网页+后端API，供其使用。

谢王哥了！我要消化消化你说的这段内容

抡锤者

请问有大神分享一下Hermes agent创建“团队”的教程吗？