跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

kop wangK

kop wang

@kop wang
关于
帖子
58
主题
3
分享
0
群组
1
粉丝
1
关注
0

帖子

最新 最佳 有争议的

  • 为了论坛的健康发展,请勿在技术板块发布、回复spam(引流、推广、钓鱼)内容
    kop wangK kop wang

    为了给大家营造一个干净、高效的技术交流环境,即日起,请勿在技术板块发布或回复任何 SPAM 内容(包括但不限于广告推广、引流拉新、钓鱼链接等)。这类信息会严重干扰正常讨论,降低内容质量,也会影响优质帖子被搜索引擎收录和推荐。

    同时,我们非常鼓励大家在技术板块发帖、回帖时,多分享一些有价值的信息。这些内容不需要是严谨的技术结论,你的个人理解、实战经历、踩坑体会,对别人来说可能都是很有帮助的参考。当大家的点滴分享汇聚起来,论坛自然就能成为获取一手资讯、高效交流的好地方,优质内容也会更容易被搜索到,吸引更多同好加入。

    随着论坛流量和活跃度的提升,我会提议开设专门的推广 / 商务板块,供有需求的朋友合规地发布宣传信息。在专属板块上线之前,还请大家理解并配合,让技术板块保持专业和纯净。

    感谢每一位用心交流的朋友。

    站点公告

  • Hermes Agent 快速上手指南
    kop wangK kop wang

    随着锤哥视频引流,新人越来越多,感受到大家可能需要一个简单粗暴的指南来给大家在使用Agnet,以及利用Agent作为助手调试LLM性能过程中做出一些启发,于是花了一点时间写了下文,供大家交流。

    因为全程手写,所以难免有拼写、时效性、技术细节方面的错误,如有失误,请随时指正,我及时修改。
    如有疑问,欢迎随时回帖提问,我每天会抽出时间回答。

    注:如果你已经能熟熟练使用Hermes Agent或OpenClaw,或许这篇文章就不适合你了,欢迎发帖、回帖讨论任何Agent相关内容。
    注2:考虑到是“快速上手”,所以下文中有很多简单粗暴的比喻和概念拆解,只供做逻辑参考,不能100%完全符合实际技术原理与特性。如有深入交流的需求,我在有时间的前提下会开帖深入探讨。


    0、使用 Hermes Agent 的前提是什么

    要求
    系统 Linux / macOS / WSL2(Windows)/ Windows原生(早期测试)
    基座LLM 至少一个 LLM 提供商的密钥(MiniMax、DeepSeek、qwen 等 20+ 种)或者自建LLM
    安装教程(官网) https://hermes-agent.nousresearch.com/docs/zh-Hans/getting-started/installation

    安装后运行 hermes setup 走完初始化向导即可开始。


    1、为何使用 Hermes Agent,和 Chat 聊天窗口的区别

    普通 Chat网页(类似DeepSeek 网页版)是对话工具:你说一句它回一句,会话无记忆,用完即焚,无法操作你的电脑。

    Hermes Agent 你可以理解为是你的助手、秘书,他和你一样,有使用当前电脑的一切能力:

    ChatBot Hermes Agent
    会话持久性 无(除了chatGPT) 跨会话记忆
    工具执行 无 运行命令、读写文件、操控浏览器、发消息
    定时任务 无 有定时执行机制
    学习进化 无 通过 skill 积累经验,重复任务执行更快,更省token
    多平台 无 Telegram / Discord / Slack / CLI 等 10+ 平台
    模型自由 被平台限制 随时切换任意模型/提供商

    2、如何高效地和 Hermes Agent 沟通

    2.1 正确看待 Hermes Agent 的角色

    就像上面所说的,既不能把他当作全知全能的神,也不能把他当作没有判断力的应届实习生。

    核心原则就是:描述你的前提,告诉他你要什么结果,如何验收这个结果的正确性。不要去关心具体怎么操作。Hermes 会自动选工具、定步骤。

    不要犯蒋校长的错误,又菜又爱玩微操。
    也不要像你的女朋友对待你一样,什么事儿都要Hermes猜。LLM的逻辑转换能力是受到神经网络层级限制的,你越让他猜,他最终分配在执行和统计上的智商就越低。

    2.2 session_search —— 让 Hermes 记得你们聊过什么

    Hermes 具备跨会话检索能力。当你在新会话中提到之前讨论过的话题,Hermes 会自动搜索历史会话找回上下文。

    所以不需要每次重复背景信息。直接说

    "昨天我们讨论部署qwen3.6-27B,我试了你推荐的方案,结果是……如何让prefill速度再快一点?",
    

    Hermes 自己能找到那次对话。

    2.3 Skill —— 让 Hermes 记住怎么做最好

    Skill 的本质就是一段文字叙述,记录着做某件事的技巧和流程。
    如果想对你的某件事创建skill很简单。只需要两步:
    1——你让你的hermes做一遍,和他一起配合做成功。
    2——告诉他:

    “把这个流程总结成skill。以后再做XXX就按照这个做”
    

    2.4 抹平信息差 —— Hermes 看不到你的屏幕、猜不到你的心思。

    这是最容易被忽略的一点。Hermes 通过命令行与系统交互,但看不到你的屏幕、你的浏览器标签页、你的思维过程。

    所以,说话请说全:

    "我现在在做XXX,报了一个YYY的错误,错误信息是:abcde,帮我修复一下。"
    

    如果复制粘贴做不到,可以截图发给他。Hermes Agent有视觉能力,当然前提是你的基座LLM得是多模态模型。或者你按照上文中skill的技巧,告诉他需要视觉能力时,走某个另外一个模型。

    另外,如果你只是想让他给你提示和规划,不想让他上手做,请明确说明。
    不要像你的女朋友一样:“你没看见这里很脏吗?”,“我让你用扫把扫了吗?不会用拖把吗?”
    要向你一样:“媳妇儿,帮我看看我手机是不是在客厅?在就行了,不用拿过来”


    3、Hermes Agent 都能为我完成什么

    3.1 定时任务(Cron)

    Hermes 内置作业调度器,支持自然语言时间描述。

    “每天早上9点取一下24小时之内的hacker news 热帖,翻译标题并生成一句话总结,发到我discord上。”
    “每过一个小时,监控一下我目前持仓的A股股票的技术参数,从短线的视角来看,如果出现MA5斜率为负(balabala你自己喜欢的指标特征),就给我发discord通知我,连续发三遍”
    

    3.2 本机电脑操作

    Hermes 可以直接在终端执行命令,包括但不限于:

    类别 示例
    系统管理 检查磁盘/内存/进程,安装包,管理服务
    代码操作 Git 提交/推送/合并,代码格式化,类型检查
    文件管理 读写/搜索/替换/重命名文件
    网络工具 curl API 调用,SSH 远程连接,端口检查
    Python 执行 运行脚本、数据分析、批量处理

    安全机制:危险命令(rm -rf、sudo 等)会弹确认提示,可通过 --yolo 全局跳过。
    所以,你可以利用Hermes来帮你测试并调试本地LLM运行参数、环境,甚至是进行模型的训练和微调。

    3.3 浏览器页面操作

    Hermes 可以操控内置的浏览器,完成需要页面交互的操作:

    场景 说明
    网页抓取 加载动态渲染页面,提取结构化内容
    表单填写 登录、提交表单、领取福利
    截图验证 截取页面截图 + vision 分析(例如验证码识别)
    自动化操作 点击、滚动、键盘输入,模拟真实用户行为

    4、思考题

    如果我希望Hermes Agent来帮我炒股,股票代码000001,价格超过5元卖出,价格低于4元买入。你会怎么PUA他?


    附录:常用命令速查

    # 启动会话
    hermes                     # 交互模式
    hermes --continue          # 继续上次会话
    
    # 配置
    hermes setup               # 初始化向导
    hermes model               # 切换模型/提供商
    hermes doctor              # 健康检查
    
    # 技能管理
    hermes skills browse       # 浏览技能市场
    hermes skills install ID   # 安装技能
    hermes skills list         # 查看已安装
    
    # 工具管理
    hermes tools list          # 查看可用工具集
    
    # 定时任务
    hermes cron list           # 查看所有任务
    
    # 会话
    hermes sessions list       # 查看历史会话
    /reset 或者 /new                    # 新会话(工具变更后需重置)
    
    # 查看完整文档
    https://hermes-agent.nousresearch.com/docs/
    
    AI Agent

  • VSCode官方放开了模型的自定义配置功能,可以在Copilot中配置自定义模型供应商API了
    kop wangK kop wang

    不需要一周了,跑了几个功能修复的任务,可以盖棺定论了。Github Copilot这个Coding Agent的体验远差于Claude Code。

    1、浪费上下文。Claude Code 20k上下文解决的问题,Copilot要跑到200k。平均费用高3~5倍。
    2、性能羸弱。应该是缺乏一些关键的Coding skill逻辑,导致其能力过于依赖LLM本身的逻辑与判断,无法最大化的发挥LLM的推理价值。
    3、上下文索引能力差。一个GET请求超限的问题,爬了200k上下文,都没找到关键代码。ClaudeCode 5k的上下文就解决问题了……

    AI Agent

  • 【折腾记录】Hermes模型横评:Qwen 3.6 27B (5090&M4 Max MLX) vs DeepSeek云 vs Claude Code代理
    kop wangK kop wang

    @菠菜多 从总体的benchmark来看,deepseek-v4-pro在整个智力层面上没有超过deepseek-v4-flash很多。但是:
    1、你是用于财务工作,有很多专业知识。
    2、Claude Code是一个Coding Agent,未见得有充足的财务Tools。
    3、你的场合是一个低频场景,对于API价格应该不是特别敏感。

    所以基于此,我个人的建议是继续采用deepseek-v4-pro,毕竟他的参数总量和激活参数远大于Flash。pro是1.6T参数,单次调用激活49B,Flash是284B参数,单次只激活13B。

    毕竟总参数决定了模型的知识总量。在不使用专业Agent的前提之下,知识量对于推理准确度有非常大的正向作用。

    AI Agent 5090 nvidia

  • 3090 vLLM 跑那個本地模型玩Hermes 好
    kop wangK kop wang

    同意锤哥意见,3090是24GB显存,理论上讲跑qwen3.6-27B的Q4_K_M量化,能放下128K上下文。我有套llama.cpp的参数,楼主可以参考尝试:
    --ctx-size 131072
    --flash-attn on
    --cache-type-k q8_0
    --cache-type-v q8_0
    --temp 0.6
    --top-p 0.95
    --top-k 20 \

    AI Agent

  • VSCode官方放开了模型的自定义配置功能,可以在Copilot中配置自定义模型供应商API了
    kop wangK kop wang

    @terry 可以说微软是又交出了GitHub当训练资源,最后又没拿到真正有战斗力的GPT模型的好价格,最后OpenAI弄出了Codex。可以说输的很彻底。

    这个唯一的价值单纯就是从我个人的使用习惯出发的,毕竟是Copilot的3年订阅用户了。Copilot的订阅这两月也是不做人,恶心的要死。所以再把我逼到第三方API+Claude Code。

    AI Agent

  • 兄弟们,玩AI Agent之前,一定要找准方向。
    kop wangK kop wang

    对的,AI并不是许愿池。他只是你的副手、秘书、助理。所以要有计划的和他进行分工。
    如果你把他的位置置于你之上,最终的结果一定都不尽如人意。

    AI Agent

  • 大佬是怎么赚钱的啊还是纯爱好?
    kop wangK kop wang

    @袁德圣 我个人拙见是两个思路。

    一个是“站在金矿门口买镐头“,也就是帮助企业和个人接入、部署、使用AI。

    一个是”实际进去的淘金人“,也就是利用AI作为杠杆,去撬动过去因为生产力和能力不足,不能涉猎的生产模式。

    随便聊聊

  • RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S
    kop wangK kop wang

    感谢楼主分享。
    prefill性能不到500,从性价比上来讲可以接受,但是容易多轮对话之后每次LLM调用都要罚站10~20秒。

    但反过来想,如果使用localLLM只是用于背景进程任务,对实时性要求不高的话,也是可以接受的。

    还有就是MTP对于prefill有一定的负面影响,也需要去衡量。

    AI硬件 nvidia rtx3080

  • (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t/s
    kop wangK kop wang

    @stakira 研究了下,有人就这个问题提交了pr,目前看还没有被处理

    https://github.com/ggerganov/llama.cpp/pull/23225

    应该对于多卡用户是个好消息

    AI硬件 nvidia rtx3060 multi-gpu

  • AMD 5700G 32G 7900XTX windows11 llama.cpp Windows x64 (Vulkan)跑Qwen3.6-35B-A3B-UD-Q4_K_S交作业
    kop wangK kop wang

    我个人理解楼主这套有几个改进的方向。
    1、Q4量化用Q4_K_M的性价比相对K_S更高一些。
    2、再对模型吞吐性能要求不高的前提下,可以尝试以下qwen3.6-27B Q4_K_M。理论上讲,配合使用q8的kv量化,可以做到128K上下文。这样能力更好。
    3、对于性能参考,楼主可以以llamabench来测试下速度,主要是要综合prefill和decode两个性能一起参考。

    仅供参考。

    AI硬件 amd 7900xtx

  • 7900xtx vs r9700 llm速度对比
    kop wangK kop wang

    感谢楼主分享,A卡这方面的整合尤其少。在此我也放上mac生态和英伟达GB10生态的Performance Explorer网站。供参考:
    Mac生态:https://omlx.ai/compare
    GB10生态:https://spark-arena.com/

    AI硬件

  • 大佬们,中小企业自建本地大模型有没有什么可行的方案?
    kop wangK kop wang

    @Phuong-Ngo

    关于Agent的选择,通用事务Agent在代码能力方面是远不及专用的Coding Agent的。Coding Agent包括但不限于Copilot(今天的更新他也支持自定义LLM供应商了),Claude Code、OpenCode等。以上的工具在Coding能力效果远大于OpenClaw和Hermes Agent。当然,客观事实是一回事,公司现状是另一回事,咱们只讨论理想情况。

    至于说Coding的方式,目前普遍已经进化到vibe Coding为主。也就是代码的修改不局限于代码段的tab补全提示和复制粘贴。而是直接交给AI任务,让他直接完成编辑、编译、调试、测试整套流程。然后人工再介入审核的模式,你用Copilot肯定知道他的Agent模式,就是这样。

    最后是关于多卡,其实从你们目前的localLLM的整套逻辑并没有跑起来,所以我个人也不会有什么建设性的意见。还是先以优化为主。最起码你们要先固定一个有实战意义的使用模式,然后再聊优化会比较有建设性一些。

    LLM讨论区

  • NVIDIA Quadro RTX 5880 Ada Generation 48GB + vLLM + Qwen3.6-35B-A3B-FP8 + tailscale + 多个Hermes Agent客户端
    kop wangK kop wang

    建议楼主分享下benchmark的性能,尤其是大上下文下(128K及256K)的prefill和decode速度。对于坛友会有更大的参考性。

    LLM讨论区

  • 大佬们,中小企业自建本地大模型有没有什么可行的方案?
    kop wangK kop wang

    这个东西变数太大了。
    “花费尽可能少”,“可能并发在10-20吧”,“至少也能花个几十W吧”

    我觉得最起码要先有一个最小可验证模型。
    就是你的业务场景至少需要什么样的模型,什么样的性能,才能跑通,有这个定量的前提之下再聊方案,聊预算。

    在需求不能明确量化的前提下谈方案没什么实际意义。

    LLM讨论区

  • 7900 XTX + Qwen3.6-27B:Ubuntu + ROCm / Vulkan / MTP 64/128/256K 全部實測整理
    kop wangK kop wang

    测试的非常全面,非常宝贵的数据。置顶三天。

    LLM讨论区

  • 小白,折腾个hermes把我搞烦了
    kop wangK kop wang

    @gg-lib 对于上下文设置而言,两端都有各自的配置,模型框架启动的时候有。hermes配置custom endpoint的时候也有。一般情况下,第一次配置会自动探测,所以目前你不是第一次配置,你就需要两侧(模型框架、hermes配置)都要改成64000以上。

    然后就是3060不会给你太好的体验的,deepseek-v4-flash一次调用也就一两分钱。你整个体验下来绝对不超过一角钱。deepseek的最低充值额度是1元。

    所以我还是推荐走线上比较合情合理。也更便于你的研究和拓展。

    AI Agent

  • 爆肝十天,每天睡三个小时,手搓一个工作流
    kop wangK kop wang

    @terry 我个人理解,至少现阶段的“工作流”和当初的“中台”一样。是满足大企业高管对于企业产出稳定性上的一种情绪化产物。
    是一种纯的反效率概念。

    中高层试图用工作流,给自己的“AI化”、“拥抱新鲜事物”贴一个可控的量化标签。

    LLM讨论区

  • Vide coding 鉴赏大会
    kop wangK kop wang

    简单讲,就是之前你认为,如果有xxx就好了的场景,目前vibe coding就非常的契合。

    比如过去bbs时代的时候,我就特别希望有个“对喷大师”工具。一键复核对方的论据论点,最好还能指出对方的逻辑漏洞。现在虽然没有对喷的需求了,但是复核论据还是有用的,我也在做这件事

    AI Agent

  • 【折腾记录】Hermes模型横评:Qwen 3.6 27B (5090&M4 Max MLX) vs DeepSeek云 vs Claude Code代理
    kop wangK kop wang

    @pilipala cc-switch就可以,如果使用的是Claude Code CLI,且你的运行环境支持Anthipala cc-switch就可以,如果使用的是Claude Code CLI,且你的运行环境支持Anthropic API的话,都不需要代理。

    AI Agent 5090 nvidia
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组