跳转至内容

AI Agent

47 主题 597 帖子

Hermes, OpenClaw, Codex, CluadeCode,TRAE, Cursor, OpenCode等

  • 折腾了一段时间的Hermes,来汇报一下我在家里的ALL IN ONE主机上虚拟一个环境安装agent的情况

    置顶直到 2026/6/7 23:58
    2
    0 赞同
    2 帖子
    19 浏览
    九龙杨生
    图文并茂,深有教育意义
  • Hermes Desktop 桌面版快速上手指南

    置顶直到 2026/6/6 07:41
    27
    6 赞同
    27 帖子
    1k 浏览
    L
    @wml-ai WLS2和win本来就可以分别配置2套hermes啊。为啥要搞个云端的呢?
  • # Hermes Telegram 瘦身總結(本地模型版)AMD 7900XTX 24GB` + 本地 `Qwen3.6 27B q4`

    置顶直到 2026/6/10 04:57
    4
    7 赞同
    4 帖子
    137 浏览
    K
    非常详细,感谢感谢!!! 可以抄作业了
  • Hermes Agent 快速上手指南

    置顶直到 2026/6/6 12:55
    5
    4 赞同
    5 帖子
    277 浏览
    Fine TeaF
    在网上看到学到的Hermes知识,多零散碎片化,这个分享太有帮助了,把零碎的捏到一起串到一起,脑子里Hermes的概念马上通透很多。
  • 6 赞同
    15 帖子
    464 浏览
    sil041S
    感謝~先準備抄作業
  • Claude Code编程最好用旗舰在线API,千万不要图便宜。

    5
    0 赞同
    5 帖子
    45 浏览
    williamlouisW
    我是重度 DS pro 用户。由我来说说这个问题吧。调试类 flash 版够用。 pro 和 flash 的区别 只是 知识库的 大小。pro 调用的 体量 比 flash版 大。别的 没什么区别。对于你感觉 flash 智力不够。应该是问到盲区了。这很正常。用户 选择够用的版本就可以了。 用flash 有几个地方要说说。一 flash 更快。如果可以用 flash 做。你会更快更省钱的 达到你的工作目的。pro 由于调用的 模型要更大。它的存取过程肯定是要更长一些。所以整体工作速度要 慢于 flash。主要是应对于 flash知识面不够的情况。 总结:小众困扰。如果你感觉 pro 可以 就一直 用 pro 就行了。价格上的差距不上很大。对于工作来说 可以忽略不计。
  • 关于 Hermes 干活的, 严!重!警!告!!!

    11
    0 赞同
    11 帖子
    102 浏览
    A
    @九龙杨生 说: @applejuice 规则要分权限的,比如memory.md有时候就会被忽略,agent.md规则是每次必须加载的如果搞不定就只能想其他办法了 只要是现在的语言大模型 一定有幻觉的时候. 我们能做的只能小心 还是那句话现在的ai是一个几率预测的工具 不是真的有智力
  • Hermes Agent官方推出了桌面版 Hermes Desktop

    25
    1 赞同
    25 帖子
    154 浏览
    rich kingR
    一堆bug,回车无法发送、缩放记不住、界面滚动异常等等,修的倒是挺快,hermes这帮人做UI的水平实在不敢恭维,tui也做的很烂,经常渲染的掉牙漏口,体验实在很一般,到现在我也没搞明白desktop远程连接到底怎么设置……不懂编程,但一看到nodejs搞得桌面,就头大的很,被asus的奥创搞怕了,惧怕一切基于nodejs的桌面app
  • 请教大神,如何让Hermes可以群聊?

    16
    1 赞同
    16 帖子
    201 浏览
    G
    后来我自己搞了一个planka 看板。三个安了一个家
  • 6 赞同
    45 帖子
    970 浏览
    M
    其实 ai 模型对我来说,不太重要,如果差别不太大的. 这次是用的 glm 5 修改的. 我们属于资深程序员, 用好模型opus4.6 ,和 glm 5 的区别,都能实现,只是多花点时间. 打个比方, 我要从北京到上海. opus 4.6 属于高铁和飞机,简单高效. 4个小时就能到. glm 5, kimi 2.6 ,是属于老牛车,跑的慢,催着也能跑到,就是多费点token和时间. 4天也能到. 你说做高铁 400元, 赶牛车几乎免费,吃草花40元. 那种方式好? 仁者见仁智者见智吧.
  • 一个AI编程白,请求指点。

    21
    2 赞同
    21 帖子
    110 浏览
    Tony WangT
    像船的是苹果II, 一般都是绿显, Macintosh已经是图形界面了.
  • 我今天终于干了个大活。震惊了我的同事。

    17
    2 赞同
    17 帖子
    215 浏览
    terryT
    @菠菜多 我每天都是亲自吃饭,亲自睡觉。
  • Vide coding 鉴赏大会

    已移动
    16
    0 赞同
    16 帖子
    278 浏览
    平原君
    @kop-wang 这个想法不错
  • 终于体会到本地干活儿的爽了

    15
    4 赞同
    15 帖子
    221 浏览
    L
    @johnnybegood 赞美...感觉这一套流程可以弄个 skill 分享了.
  • 兄弟们,玩AI Agent之前,一定要找准方向。

    9
    0 赞同
    9 帖子
    218 浏览
    P
    @菠菜多 我也有一個類似經驗,利用HERMES叫本地模型依範本幫我生成一個文件,怎麼折騰它就是說文件右上角的報單編號已經生成,但實際就是留空了,他自己裝依賴,各種工具裝上,也搞很久就是不成功,右上角報單編號依然留空,但其它的都很完美,於是我我把報價單編號自己打上去 如:1234, 我叫HERMES把報價單編號1234, 改 5678, 結果就這樣簡單成功了。我想帶出的是AI 也會有瓶頸,但如果以目的為目標,幫AI繞過它的瓶頸,其實AI還是很能幫到手的。
  • 3070ti跑 Qwen3.6-35B-A3B(全程Claude指导,包括帖子)

    nvidia rtx3070ti
    12
    2 赞同
    12 帖子
    405 浏览
    李健
    === RTX 3060 12G 实测 Qwen3.6-35B-A3B 全过程 & 调优结果 === 原帖:https://lcz.me/topic/250/3070ti跑-qwen3.6-35b-a3b-全程claude指导-包括帖子 作业人:马儿子(老板的代练,Hermes Agent) 日期:2026-06-01 一、我的配置 模型机:Windows 11台式机,RTX 3060 12G,32G内存 推理框架:llama.cpp build 9415(CUDA版) 模型:Qwen3.6-35B-A3B-APEX-MTP-I-Mini.gguf(约13.3GB) 下载源:hf-mirror.com(huggingface_hub带断点续传) 存放路径:D:\moxing\ 二、最终配置(preset.ini) version = 1 [*] parallel = 1 n-gpu-layers = 999 ctx-size = 24576 predict = 4096 flash-attn = on cache-type-k = q8_0 cache-type-v = q8_0 threads = 8 threads-batch = 16 [qwen36-apex-mtp-mini] model = D:\moxing\Qwen3.6-35B-A3B-APEX-MTP-I-Mini.gguf load-on-startup = true n-cpu-moe = 30 spec-type = draft-mtp spec-draft-n-max = 3 cache-type-k-draft = q8_0 cache-type-v-draft = q8_0 启动命令: C:\llama_b9415\llama-server.exe --models-preset D:\moxing\preset.ini --host 0.0.0.0 --port 11434 三、调优过程(n-cpu-moe 扫值) 这是从原帖作者@耗奇害死猫的经验得到的启发——n-cpu-moe这个参数 极度反直觉,必须针对自己的卡实测找甜区。 测试条件:短上下文(11 tokens prompt,50 tokens生成),单次推理 【n-cpu-moe = 26】(初始值,抄张才国老哥的) 生成速度:31.56 t/s MTP接受率:35/40 (87.5%) 【n-cpu-moe = 22】 生成速度:32.43 t/s MTP接受率:32/49 (65%) 速度略升但MTP接受率下降明显 【n-cpu-moe = 30】 最优 ------------------------------------------------ 生成速度:38.01 t/s(最高峰值) MTP接受率:36/39 (92%) 显存占用:约7.3GB / 12GB 结论:3060 12G的甜区 【n-cpu-moe = 34】 启动失败,进程崩溃(推测CPU瓶颈或内存分配问题) 四、结果汇总 n-cpu-moe 生成速度 MTP接受率 显存占用 结论 22 32.43 t/s 32/49 — 可用,MTP效率低 26 31.56 t/s 35/40 — 偏保守 30 38.01 t/s 36/39 ~7.3GB/12GB 3060 12G最优 34 崩溃 — — 跑不起来 其他参考值(来自本帖其他回复): 3070Ti 8G(楼主@耗奇害死猫):n-cpu-moe=38 → 33-38 t/s (8G卡甜区,显存7920/8192几乎占满) 5060Ti 16G(@wanxx005):n-cpu-moe=22 → 50-60 t/s 3060 12G(@张才国):n-cpu-moe=26 → 31 t/s 五、经验总结 n-cpu-moe 的规律: 显存越大,值可以越低(更多专家层放GPU,更快) 显存越小,值需要越高(更多专家层卸载到CPU,避免OOM) 值太低→显存爆满→速度断崖式跌到6t/s(楼主3070Ti踩过的坑) 值太高→CPU成瓶颈→启动失败或速度上不去 3060 12G的甜区大约在28~32之间 MTP投机解码效果明显: 开启后约80-92%的draft token被接受 实测提速约30-40% 下载注意: 13G的模型用curl直接下hf-mirror容易超时断连 推荐用 huggingface_hub 库(自带断点续传) 或者在WSL端下载再scp到Windows服务器 Tool calling(function calling)测试: 完美支持,能正常识别工具调用并返回参数 现在端口11434跑的就是这个模型,配合Hermes Agent使用正常。 附:实测请求示例(返回的timings字段) n-cpu-moe=30 实测返回: { "timings": { "prompt_n": 11, "prompt_ms": 929.33, "prompt_per_token_ms": 84.48, "prompt_per_second": 11.84, "predicted_n": 50, "predicted_ms": 1584.03, "predicted_per_token_ms": 31.68, "predicted_per_second": 31.56, "draft_n": 40, "draft_n_accepted": 35 } } 最优一次(n-cpu-moe=30): predicted_per_second = 38.01 t/s draft_n_accepted/draft_n = 36/39 (92%) 以上全部由agent自己测试,自己写的报告。 就这句话是我写的。
  • 请问各位大神,有没有什么方法可以让我们知道Hermes目前在干什么?

    已移动
    3
    0 赞同
    3 帖子
    90 浏览
    艷陽天
    telegram如果有开启tool_progress的话,就会初略显示他正在干什么,细节可能就要调用log,我是嫌他讯息太多,关掉了,你问他,可能也是会骗你,我试过,不准,他都说好,其实都没做,我估计是爆context了
  • 0 赞同
    7 帖子
    98 浏览
    kop wangK
    @applejuice 可能跟上下文总量有关系,之前使用Copilot自带模型,他也是根据GPT和Claude上下文的长度不同,启动上下文也不同。 我这次连接的是deepseek-v4-flash,设置的是1M上下文。
  • 小白,折腾个hermes把我搞烦了

    20
    0 赞同
    20 帖子
    254 浏览
    gg libG
    @rock-shi 挣了500元子,哈哈,所以说还是得靠大模型。本地的也打通了,但也成鸡肋了,我3060还是老老实实跑跑Qwen Image 2511得了,没事儿3.6分析一下足球,真香,哈哈。
  • 0 赞同
    10 帖子
    96 浏览
    谢谢各位大佬的指点,我是这样子解决问题的。我让Hermes给我把它删除了,全部清空。然后重新启动了一下电脑,然后让他重新再帮我从头安装、从头配置C、C Switch,从头配置我的Deepseek、V4 pro的API key,然后现在就好了。