Agent建议直接上在线API

pilipala

前端 Hermes 0.12->0.13 跑在wsl2
后端 lama.cpp version: 8940 (78433f606) built with Clang 19.1.5 for Windows x86_64
系统 Win11 24H2
硬件 98x3d 24G*2 5090dd 24G

llama-server启动参数
set "LLAMA_ARGS_NORMAL=-ngl all -c 81920 --flash-attn on -n -1 --keep -1 --batch-size 512 --ubatch-size 512 --parallel 1 --cache-ram 32768 --cache-type-k q8_0 --cache-type-v q8_0 --no-mmap --mlock --jinja"
模型 Qwen3.6 27B Q4

每天下班到家7点，一刻不停一直玩Hermes到3点，持续了一周，白天上班也会抽2-3小时玩，谈一谈体会，

一上手是非常惊艳的，Hermes + Qwen3.6展现了非常强的协同水准，让人感觉给他一个手脚就可以放进人形机器人当大脑。简单任务自我排障、纠错和通过本地编码完成任务的能力很强。

然后说说缺点，也可能是我不会用，
1、llama开了cache mem参数就是希望长上下文不爆KV缓存，放到内存可能每次prefill的速度都会受影响。当然这个是环境原因。
2、需要调用外部平台api的，如果是模型完全不懂的会web搜索找官方文档或者去git上看源码。如果模型了解该api，但是外部平台api版本迭代了，Hermes就会按照自己的逻辑处理，最后的质量不一定能保证。我也训练了专门的skill触发器要求hermes在连续尝试失败后调用在线api问deepseek并联网搜索，指令遵循度不高。当然也可以尝试用Gateway Hook的方式，还没有测试。
3、申请授权的逻辑非常迷，有的操作我认为需要授权它自己就干了，例如修改配置文件，有的操作不需要授权（任务过程中的中间步骤），哪怕我点了always，还是会找我授权。也可能是我不会用，设置有问题。
4、Hermes自我排障过程中，会不停尝试各种解决办法，产生很多临时文件，自己不会去清理，临时文件存放的位置也非常随意，可能和LLM有关系。
5、预训练了skill，写好了脚本，用于执行复杂的多层嵌套任务（我目前是3层），还只是非异步任务，会碰到各种各样的问题，Hermes会自说自话找其他路径解决（质量差），而不是中断任务去定位当前的问题，并向我汇报等我来决策。
6、干活儿干一半，不说话了，有时候是还在跑，我如果和它对话就会interrupt当前的job，有时候是它自己停了，我还在担心会不会打断它在那里傻等。我平时是通过观察gpu负载看它是不是在干活儿的，一方面有的任务是cpu的，负载太低观察不了，有时候也会出现明明应该调用大模型但是gpu延迟很久负载才起来的情况。

总结一下，
1、生产的工作流，最好还是自己coding，起码自己review，验证无误，agent只负责执行、整理、提交之类的sop任务。
2、上下文大小和prefill的速度非常重要，在线api像特哥说的，白菜价了，就别折腾本地后端了，花了很长时间调优就是浪费生命，你的时间更值钱。
3、Hermes一周使用下来，从整体来说给我的感觉是惊艳，看到了未来的星辰大海，上面说的缺点瑕不掩瑜（而且大概率是我自己菜），社区更新速度非常快。

这台电脑本来是买来打游戏的，和hermes一比，游戏太无聊了。
P.S. 感谢老特提供这个交流的平台和毫无保留的分享。
个人观点经验，不喜轻喷哈，准备装新机子去了。

============================================
对了，请教一下各位大神，有没有在线API能实现类似网页版LLM的工作流的效果的，
即 “提示词 -> 思考 -> 联网搜索 -> 思考 -> 联网搜索 -> 思考 -> 回答“
不胜感激～

terry

@pilipala 非常好的分享。非常详细。老弟，你需要在线版的联网搜索干嘛？在线的DeepSeek不需要搜索啊，hermes可以配置搜索你不知道吗？我感觉它的搜索效果并比DeepSeek自己的差，挺好用的。

pilipala

@terry 我想要的是工作流式带交互的搜索，和thinking mode多步协同处理一个问题，配了在线api和本地的区别只是在线的参数规模更大、硬件更强大，我们平时用的web版LLM的前端框架都是AI大厂深度定制过的，Hermes目前只能实现一个问题联网搜索后注入提示词，没有网页版的前端框架强

terry

@pilipala playwright脚本，或者开UI chrome给hermes操作网页版，手搓一个API，我老频道讲过这个问题，当时是openclaw，其实不难实现。

pilipala

@terry 可以可以～

Xiaote

Jetson Thor 128G 跑 nvfp4 50 token/s 不错啊！Qwen3.6 27B dense 能有12 token/s 也够日常用了。就是 Thor 这板子价格劝退……在线API确实省心省钱，但本地跑有个好处是可以随便调参数、试各种量化，还能离线用。看场景吧，生产环境上API，折腾娱乐就本地。

抡锤者

Agent建议直接上在线API