Hermes Agent 快速上手指南
-
随着锤哥视频引流,新人越来越多,感受到大家可能需要一个简单粗暴的指南来给大家在使用Agnet,以及利用Agent作为助手调试LLM性能过程中做出一些启发,于是花了一点时间写了下文,供大家交流。
因为全程手写,所以难免有拼写、时效性、技术细节方面的错误,如有失误,请随时指正,我及时修改。
如有疑问,欢迎随时回帖提问,我每天会抽出时间回答。注:如果你已经能熟熟练使用Hermes Agent或OpenClaw,或许这篇文章就不适合你了,欢迎发帖、回帖讨论任何Agent相关内容。
注2:考虑到是“快速上手”,所以下文中有很多简单粗暴的比喻和概念拆解,只供做逻辑参考,不能100%完全符合实际技术原理与特性。如有深入交流的需求,我在有时间的前提下会开帖深入探讨。
0、使用 Hermes Agent 的前提是什么
要求 系统 Linux / macOS / WSL2(Windows)/ Windows原生(早期测试) 基座LLM 至少一个 LLM 提供商的密钥(MiniMax、DeepSeek、qwen 等 20+ 种)或者自建LLM 安装教程(官网) https://hermes-agent.nousresearch.com/docs/zh-Hans/getting-started/installation 安装后运行
hermes setup走完初始化向导即可开始。
1、为何使用 Hermes Agent,和 Chat 聊天窗口的区别
普通 Chat网页(类似DeepSeek 网页版)是对话工具:你说一句它回一句,会话无记忆,用完即焚,无法操作你的电脑。
Hermes Agent 你可以理解为是你的助手、秘书,他和你一样,有使用当前电脑的一切能力:
ChatBot Hermes Agent 会话持久性 无(除了chatGPT) 跨会话记忆 工具执行 无 运行命令、读写文件、操控浏览器、发消息 定时任务 无 有定时执行机制 学习进化 无 通过 skill 积累经验,重复任务执行更快,更省token 多平台 无 Telegram / Discord / Slack / CLI 等 10+ 平台 模型自由 被平台限制 随时切换任意模型/提供商
2、如何高效地和 Hermes Agent 沟通
2.1 正确看待 Hermes Agent 的角色
就像上面所说的,既不能把他当作全知全能的神,也不能把他当作没有判断力的应届实习生。
核心原则就是:描述你的前提,告诉他你要什么结果,如何验收这个结果的正确性。不要去关心具体怎么操作。Hermes 会自动选工具、定步骤。
不要犯蒋校长的错误,又菜又爱玩微操。
也不要像你的女朋友对待你一样,什么事儿都要Hermes猜。LLM的逻辑转换能力是受到神经网络层级限制的,你越让他猜,他最终分配在执行和统计上的智商就越低。2.2 session_search —— 让 Hermes 记得你们聊过什么
Hermes 具备跨会话检索能力。当你在新会话中提到之前讨论过的话题,Hermes 会自动搜索历史会话找回上下文。
所以不需要每次重复背景信息。直接说
"昨天我们讨论部署qwen3.6-27B,我试了你推荐的方案,结果是……如何让prefill速度再快一点?",Hermes 自己能找到那次对话。
2.3 Skill —— 让 Hermes 记住怎么做最好
Skill 的本质就是一段文字叙述,记录着做某件事的技巧和流程。
如果想对你的某件事创建skill很简单。只需要两步:
1——你让你的hermes做一遍,和他一起配合做成功。
2——告诉他:“把这个流程总结成skill。以后再做XXX就按照这个做”2.4 抹平信息差 —— Hermes 看不到你的屏幕、猜不到你的心思。
这是最容易被忽略的一点。Hermes 通过命令行与系统交互,但看不到你的屏幕、你的浏览器标签页、你的思维过程。
所以,说话请说全:
"我现在在做XXX,报了一个YYY的错误,错误信息是:abcde,帮我修复一下。"如果复制粘贴做不到,可以截图发给他。Hermes Agent有视觉能力,当然前提是你的基座LLM得是多模态模型。或者你按照上文中skill的技巧,告诉他需要视觉能力时,走某个另外一个模型。
另外,如果你只是想让他给你提示和规划,不想让他上手做,请明确说明。
不要像你的女朋友一样:“你没看见这里很脏吗?”,“我让你用扫把扫了吗?不会用拖把吗?”
要向你一样:“媳妇儿,帮我看看我手机是不是在客厅?在就行了,不用拿过来”
3、Hermes Agent 都能为我完成什么
3.1 定时任务(Cron)
Hermes 内置作业调度器,支持自然语言时间描述。
“每天早上9点取一下24小时之内的hacker news 热帖,翻译标题并生成一句话总结,发到我discord上。” “每过一个小时,监控一下我目前持仓的A股股票的技术参数,从短线的视角来看,如果出现MA5斜率为负(balabala你自己喜欢的指标特征),就给我发discord通知我,连续发三遍”3.2 本机电脑操作
Hermes 可以直接在终端执行命令,包括但不限于:
类别 示例 系统管理 检查磁盘/内存/进程,安装包,管理服务 代码操作 Git 提交/推送/合并,代码格式化,类型检查 文件管理 读写/搜索/替换/重命名文件 网络工具 curl API 调用,SSH 远程连接,端口检查 Python 执行 运行脚本、数据分析、批量处理 安全机制:危险命令(
rm -rf、sudo等)会弹确认提示,可通过--yolo全局跳过。
所以,你可以利用Hermes来帮你测试并调试本地LLM运行参数、环境,甚至是进行模型的训练和微调。3.3 浏览器页面操作
Hermes 可以操控内置的浏览器,完成需要页面交互的操作:
场景 说明 网页抓取 加载动态渲染页面,提取结构化内容 表单填写 登录、提交表单、领取福利 截图验证 截取页面截图 + vision 分析(例如验证码识别) 自动化操作 点击、滚动、键盘输入,模拟真实用户行为
4、思考题
如果我希望Hermes Agent来帮我炒股,股票代码000001,价格超过5元卖出,价格低于4元买入。你会怎么PUA他?
附录:常用命令速查
# 启动会话 hermes # 交互模式 hermes --continue # 继续上次会话 # 配置 hermes setup # 初始化向导 hermes model # 切换模型/提供商 hermes doctor # 健康检查 # 技能管理 hermes skills browse # 浏览技能市场 hermes skills install ID # 安装技能 hermes skills list # 查看已安装 # 工具管理 hermes tools list # 查看可用工具集 # 定时任务 hermes cron list # 查看所有任务 # 会话 hermes sessions list # 查看历史会话 /reset 或者 /new # 新会话(工具变更后需重置) # 查看完整文档 https://hermes-agent.nousresearch.com/docs/ -
T Tony Wang 固定了该主题
