@terry 我个人理解,至少现阶段的“工作流”和当初的“中台”一样。是满足大企业高管对于企业产出稳定性上的一种情绪化产物。
是一种纯的反效率概念。
中高层试图用工作流,给自己的“AI化”、“拥抱新鲜事物”贴一个可控的量化标签。
@terry 我个人理解,至少现阶段的“工作流”和当初的“中台”一样。是满足大企业高管对于企业产出稳定性上的一种情绪化产物。
是一种纯的反效率概念。
中高层试图用工作流,给自己的“AI化”、“拥抱新鲜事物”贴一个可控的量化标签。
对于RAG有很多唱衰的声音,主要是语义检索即便是采纳率到95%,依然是拼不过LLM直接迭代的关键词检索。语料语义化的价值在被质疑。或者说语义化引入的噪声大于其“压缩上下文”的收益。
为什么是多个Hermes Agent群聊,而不是一个Hermes远程控制多台电脑?
每多一个Hermes Agent,都会多一份沟通成本,也会多一份推理的算力成本。
随着锤哥视频引流,新人越来越多,感受到大家可能需要一个简单粗暴的指南来给大家在使用Agnet,以及利用Agent作为助手调试LLM性能过程中做出一些启发,于是花了一点时间写了下文,供大家交流。
因为全程手写,所以难免有拼写、时效性、技术细节方面的错误,如有失误,请随时指正,我及时修改。
如有疑问,欢迎随时回帖提问,我每天会抽出时间回答。
注:如果你已经能熟熟练使用Hermes Agent或OpenClaw,或许这篇文章就不适合你了,欢迎发帖、回帖讨论任何Agent相关内容。
注2:考虑到是“快速上手”,所以下文中有很多简单粗暴的比喻和概念拆解,只供做逻辑参考,不能100%完全符合实际技术原理与特性。如有深入交流的需求,我在有时间的前提下会开帖深入探讨。
| 要求 | |
|---|---|
| 系统 | Linux / macOS / WSL2(Windows)/ Windows原生(早期测试) |
| 基座LLM | 至少一个 LLM 提供商的密钥(MiniMax、DeepSeek、qwen 等 20+ 种)或者自建LLM |
| 安装教程(官网) | https://hermes-agent.nousresearch.com/docs/zh-Hans/getting-started/installation |
安装后运行 hermes setup 走完初始化向导即可开始。
普通 Chat网页(类似DeepSeek 网页版)是对话工具:你说一句它回一句,会话无记忆,用完即焚,无法操作你的电脑。
Hermes Agent 你可以理解为是你的助手、秘书,他和你一样,有使用当前电脑的一切能力:
| ChatBot | Hermes Agent | |
|---|---|---|
| 会话持久性 | 无(除了chatGPT) | 跨会话记忆 |
| 工具执行 | 无 | 运行命令、读写文件、操控浏览器、发消息 |
| 定时任务 | 无 | 有定时执行机制 |
| 学习进化 | 无 | 通过 skill 积累经验,重复任务执行更快,更省token |
| 多平台 | 无 | Telegram / Discord / Slack / CLI 等 10+ 平台 |
| 模型自由 | 被平台限制 | 随时切换任意模型/提供商 |
就像上面所说的,既不能把他当作全知全能的神,也不能把他当作没有判断力的应届实习生。
核心原则就是:描述你的前提,告诉他你要什么结果,如何验收这个结果的正确性。不要去关心具体怎么操作。Hermes 会自动选工具、定步骤。
不要犯蒋校长的错误,又菜又爱玩微操。
也不要像你的女朋友对待你一样,什么事儿都要Hermes猜。LLM的逻辑转换能力是受到神经网络层级限制的,你越让他猜,他最终分配在执行和统计上的智商就越低。
Hermes 具备跨会话检索能力。当你在新会话中提到之前讨论过的话题,Hermes 会自动搜索历史会话找回上下文。
所以不需要每次重复背景信息。直接说
"昨天我们讨论部署qwen3.6-27B,我试了你推荐的方案,结果是……如何让prefill速度再快一点?",
Hermes 自己能找到那次对话。
Skill 的本质就是一段文字叙述,记录着做某件事的技巧和流程。
如果想对你的某件事创建skill很简单。只需要两步:
1——你让你的hermes做一遍,和他一起配合做成功。
2——告诉他:
“把这个流程总结成skill。以后再做XXX就按照这个做”
这是最容易被忽略的一点。Hermes 通过命令行与系统交互,但看不到你的屏幕、你的浏览器标签页、你的思维过程。
所以,说话请说全:
"我现在在做XXX,报了一个YYY的错误,错误信息是:abcde,帮我修复一下。"
如果复制粘贴做不到,可以截图发给他。Hermes Agent有视觉能力,当然前提是你的基座LLM得是多模态模型。或者你按照上文中skill的技巧,告诉他需要视觉能力时,走某个另外一个模型。
另外,如果你只是想让他给你提示和规划,不想让他上手做,请明确说明。
不要像你的女朋友一样:“你没看见这里很脏吗?”,“我让你用扫把扫了吗?不会用拖把吗?”
要向你一样:“媳妇儿,帮我看看我手机是不是在客厅?在就行了,不用拿过来”
Hermes 内置作业调度器,支持自然语言时间描述。
“每天早上9点取一下24小时之内的hacker news 热帖,翻译标题并生成一句话总结,发到我discord上。”
“每过一个小时,监控一下我目前持仓的A股股票的技术参数,从短线的视角来看,如果出现MA5斜率为负(balabala你自己喜欢的指标特征),就给我发discord通知我,连续发三遍”
Hermes 可以直接在终端执行命令,包括但不限于:
| 类别 | 示例 |
|---|---|
| 系统管理 | 检查磁盘/内存/进程,安装包,管理服务 |
| 代码操作 | Git 提交/推送/合并,代码格式化,类型检查 |
| 文件管理 | 读写/搜索/替换/重命名文件 |
| 网络工具 | curl API 调用,SSH 远程连接,端口检查 |
| Python 执行 | 运行脚本、数据分析、批量处理 |
安全机制:危险命令(rm -rf、sudo 等)会弹确认提示,可通过 --yolo 全局跳过。
所以,你可以利用Hermes来帮你测试并调试本地LLM运行参数、环境,甚至是进行模型的训练和微调。
Hermes 可以操控内置的浏览器,完成需要页面交互的操作:
| 场景 | 说明 |
|---|---|
| 网页抓取 | 加载动态渲染页面,提取结构化内容 |
| 表单填写 | 登录、提交表单、领取福利 |
| 截图验证 | 截取页面截图 + vision 分析(例如验证码识别) |
| 自动化操作 | 点击、滚动、键盘输入,模拟真实用户行为 |
如果我希望Hermes Agent来帮我炒股,股票代码000001,价格超过5元卖出,价格低于4元买入。你会怎么PUA他?
# 启动会话
hermes # 交互模式
hermes --continue # 继续上次会话
# 配置
hermes setup # 初始化向导
hermes model # 切换模型/提供商
hermes doctor # 健康检查
# 技能管理
hermes skills browse # 浏览技能市场
hermes skills install ID # 安装技能
hermes skills list # 查看已安装
# 工具管理
hermes tools list # 查看可用工具集
# 定时任务
hermes cron list # 查看所有任务
# 会话
hermes sessions list # 查看历史会话
/reset 或者 /new # 新会话(工具变更后需重置)
# 查看完整文档
https://hermes-agent.nousresearch.com/docs/
对的,AI并不是许愿池。他只是你的副手、秘书、助理。所以要有计划的和他进行分工。
如果你把他的位置置于你之上,最终的结果一定都不尽如人意。
测试的非常全面,非常宝贵的数据。置顶三天。
@袁德圣 我个人拙见是两个思路。
一个是“站在金矿门口买镐头“,也就是帮助企业和个人接入、部署、使用AI。
一个是”实际进去的淘金人“,也就是利用AI作为杠杆,去撬动过去因为生产力和能力不足,不能涉猎的生产模式。
@applejuice 可能跟上下文总量有关系,之前使用Copilot自带模型,他也是根据GPT和Claude上下文的长度不同,启动上下文也不同。
我这次连接的是deepseek-v4-flash,设置的是1M上下文。
@Devin-Hi 如果有更新的信息,可以单独发一帖或者编辑下标题和正文,这样更容易吸引到大佬
@ktswang 主要是需要你的启动参数来看看有没有优化的角度。不过从估算的角度来看,性能可以挖掘的潜力不大。27B和35B-A3B的decode性能确实是1比3左右的关系。
核心矛盾还是16GB显存不足以容纳模型。导致过多的内存交换。
5090 32GB跑qwen3.6-27B Q4_K_M,不开MTP的前提下,decode性能也就在70+,是不是心里平衡了一点。
为了给大家营造一个干净、高效的技术交流环境,即日起,请勿在技术板块发布或回复任何 SPAM 内容(包括但不限于广告推广、引流拉新、钓鱼链接等)。这类信息会严重干扰正常讨论,降低内容质量,也会影响优质帖子被搜索引擎收录和推荐。
同时,我们非常鼓励大家在技术板块发帖、回帖时,多分享一些有价值的信息。这些内容不需要是严谨的技术结论,你的个人理解、实战经历、踩坑体会,对别人来说可能都是很有帮助的参考。当大家的点滴分享汇聚起来,论坛自然就能成为获取一手资讯、高效交流的好地方,优质内容也会更容易被搜索到,吸引更多同好加入。
随着论坛流量和活跃度的提升,我会提议开设专门的推广 / 商务板块,供有需求的朋友合规地发布宣传信息。在专属板块上线之前,还请大家理解并配合,让技术板块保持专业和纯净。
感谢每一位用心交流的朋友。
感谢楼主分享,A卡这方面的整合尤其少。在此我也放上mac生态和英伟达GB10生态的Performance Explorer网站。供参考:
Mac生态:https://omlx.ai/compare
GB10生态:https://spark-arena.com/
用的什么框架?llama.cpp吗?需要发一下截图和启动参数。
你用的是Q4,首先明确的是必然爆显存了。
个人建议是先找一个硬件租赁平台,用公开数据先跑一个demo实验,确定功能性和企业需求相契合再推敲方案。
最起码要有一些定量信息作为标的参考,比如信息总量是多少,成功率/采纳率要多少,性能指标要多少。
否则闷头做方案过于被动,无论是从最终效果呈现上,还是说从商业流程上。
@goodhat5405 目前的M5 Max的问题除了大模型的prefill性能比较低以外,还有就是目前的macbook pro的模具的解热能力已经有瓶颈了。
想爽玩还是得等mac studio。
那个495就纯是395的哥哥,核心、频率都没变,就统一内存大了一点。感觉纯粹是苏妈没活硬整。
统一内存小主机当ALL IN ONE玩玩可以,但是真指望跑LLM严肃使用不行。
mac最起码还有mlx兜底。
@laobenxiong 我个人理解,在楼主这个需求中,其实价格因素的占比很低。
7900XTX和R9700他们的显存大小不同,能运行的模型参数是不同的。R9700能跑的参数,7900XTX就是跑不了。
模型参数,是无法客观衡量这其中的价值的,也就谈不上性价比。
同理,噪音问题,性能问题也一样。
举个稍微夸张点的例子,张雪摩托,五菱面包,都是几万块钱。他们之间价格也有区别。你只能从他们之间的载货能力,赛道性能的角度探讨使用场景。你探讨张雪摩托比五菱面包便宜一万块其实是没意义的。
如果只说绝对性能,7900XTX更强。但是问题是24GB显存只能极限容纳Q4_K_M+8位量化kv+128K上下文。结合你的需求,连驱动向量数据库的小模型都放不下了。
如果说只是背景异步工作,那么R9700的32GB的显存能让你跑的更从容一些。比如可以适当提高模型精度,使用全量上下文长度等等。代价就是prefill和decode性能稍有下降。
还有一点值得考虑,R9700只有涡轮版本。7900XTX则是下压风扇版本。他们的噪音体验有所区别。