抡锤者

pilipala

@老特and各位版主，好久没回来了，不清楚我们论坛有没有相关规定，如果该帖子违规请帮忙删除。

https://lcz.me/topic/183/虽迟但到-交作业了
 https://lcz.me/topic/83/装机翻车了-求救

我算是论坛的第一批坛友吧，看了老特视频配了台大玩具，不过平时工作比较忙，经常出差，没什么时间好好折腾，吃灰一个月了，想着就不如二手出给坛友。

京东北京思科派企业店 3年质保一年换新带发票
买之前我有特地京东一家家查过北京思科派主营toB业务 04年注册经营至今可以天眼查企查查看下售后应该是非常有保障的原厂原盒都在

我在上海，最好可以上门自提，当面验卡当面交易，可以现场跑任意测试场景，确定没有问题再交易。
有兴趣的坛友欢迎私信～

pilipala

前端 Hermes 0.12->0.13 跑在wsl2
后端 lama.cpp version: 8940 (78433f606) built with Clang 19.1.5 for Windows x86_64
系统 Win11 24H2
硬件 98x3d 24G*2 5090dd 24G

llama-server启动参数
set "LLAMA_ARGS_NORMAL=-ngl all -c 81920 --flash-attn on -n -1 --keep -1 --batch-size 512 --ubatch-size 512 --parallel 1 --cache-ram 32768 --cache-type-k q8_0 --cache-type-v q8_0 --no-mmap --mlock --jinja"
模型 Qwen3.6 27B Q4

每天下班到家7点，一刻不停一直玩Hermes到3点，持续了一周，白天上班也会抽2-3小时玩，谈一谈体会，

一上手是非常惊艳的，Hermes + Qwen3.6展现了非常强的协同水准，让人感觉给他一个手脚就可以放进人形机器人当大脑。简单任务自我排障、纠错和通过本地编码完成任务的能力很强。

然后说说缺点，也可能是我不会用，
1、llama开了cache mem参数就是希望长上下文不爆KV缓存，放到内存可能每次prefill的速度都会受影响。当然这个是环境原因。
2、需要调用外部平台api的，如果是模型完全不懂的会web搜索找官方文档或者去git上看源码。如果模型了解该api，但是外部平台api版本迭代了，Hermes就会按照自己的逻辑处理，最后的质量不一定能保证。我也训练了专门的skill触发器要求hermes在连续尝试失败后调用在线api问deepseek并联网搜索，指令遵循度不高。当然也可以尝试用Gateway Hook的方式，还没有测试。
3、申请授权的逻辑非常迷，有的操作我认为需要授权它自己就干了，例如修改配置文件，有的操作不需要授权（任务过程中的中间步骤），哪怕我点了always，还是会找我授权。也可能是我不会用，设置有问题。
4、Hermes自我排障过程中，会不停尝试各种解决办法，产生很多临时文件，自己不会去清理，临时文件存放的位置也非常随意，可能和LLM有关系。
5、预训练了skill，写好了脚本，用于执行复杂的多层嵌套任务（我目前是3层），还只是非异步任务，会碰到各种各样的问题，Hermes会自说自话找其他路径解决（质量差），而不是中断任务去定位当前的问题，并向我汇报等我来决策。
6、干活儿干一半，不说话了，有时候是还在跑，我如果和它对话就会interrupt当前的job，有时候是它自己停了，我还在担心会不会打断它在那里傻等。我平时是通过观察gpu负载看它是不是在干活儿的，一方面有的任务是cpu的，负载太低观察不了，有时候也会出现明明应该调用大模型但是gpu延迟很久负载才起来的情况。

总结一下，
1、生产的工作流，最好还是自己coding，起码自己review，验证无误，agent只负责执行、整理、提交之类的sop任务。
2、上下文大小和prefill的速度非常重要，在线api像特哥说的，白菜价了，就别折腾本地后端了，花了很长时间调优就是浪费生命，你的时间更值钱。
3、Hermes一周使用下来，从整体来说给我的感觉是惊艳，看到了未来的星辰大海，上面说的缺点瑕不掩瑜（而且大概率是我自己菜），社区更新速度非常快。

这台电脑本来是买来打游戏的，和hermes一比，游戏太无聊了。
P.S. 感谢老特提供这个交流的平台和毫无保留的分享。
个人观点经验，不喜轻喷哈，准备装新机子去了。

============================================
对了，请教一下各位大神，有没有在线API能实现类似网页版LLM的工作流的效果的，
即 “提示词 -> 思考 -> 联网搜索 -> 思考 -> 联网搜索 -> 思考 -> 回答“
不胜感激～

pilipala

@terry 特哥的原则就是，先跑起来，等赚到钱了想升级啥就升级啥

pilipala

@applejuice 好，明天白天上班有时间就抽空搞，回头来给大家汇报测试结果。

pilipala

@terry 品牌机配置非常丐，是那种为了降成本特地找代工厂减配的丐，买了品牌机你就别想去折腾自己换硬件，我之前买的rog品牌机连bios都给你刷的阉割版，目的就是不让你瞎折腾把机器搞坏。品牌机厂商的核心目的是在质保的时间范围内机器不坏。如果是大型企业批量采购，带延保的售后合同的，才应该考虑品牌机。

pilipala

@applejuice 我和你一样，也是想本地+云端llm协同，最大的问题就是会话上下文共享，云端便宜且上下文窗口大可以直接把本地的上下文都注入提示词，就是需要做一个智能路由的网关，我本来想自己搞一个分支，但是想想社区更新那么快，自己搞完后续还要持续维护兼容社区新的release，而且可能后面新版本会带类似的功能，想想就算了。

pilipala

上周一直在加班，散件买了没空装机，周末把机器和系统都装好了。
后面两周还要出差去阿里、腾讯、字节、工行调研交流，先Po几张图，回头再给大家分享一下具体配置。
P.S. Ubuntu哪个远程桌面软件比较好用？可以远程看视频不掉帧，操作响应比较丝滑的。NoMachine? RustDesk? Ubuntu原生的RDP？明天就要出差了，今天晚上得搞定，有没有大神用过的说说，谢谢～

5ffcb070-8b03-4235-a77e-17c8cb9ac6ab-6ad79b372e7a6aa52c9eb0f9aab76f76.jpg
d00ad3bd-91e7-4cad-b54f-3fdbe50c3de6-1359ac86ada767536abc87220f353516.jpg
1689d0b4-d1a2-4e0f-a31c-a77b92bd1bd9-0451cf484b3e89ed5a50de6fbcdeec6f.jpg

pilipala

@terry 我想要的是工作流式带交互的搜索，和thinking mode多步协同处理一个问题，配了在线api和本地的区别只是在线的参数规模更大、硬件更强大，我们平时用的web版LLM的前端框架都是AI大厂深度定制过的，Hermes目前只能实现一个问题联网搜索后注入提示词，没有网页版的前端框架强

pilipala

锤哥，能不能把这个去掉。

pilipala

pilipala

烤机10分钟

pilipala

对我那台整机感兴趣的，也欢迎私信～
机箱：ProArt 602 限定版
电源：长城 N20 （2000w pcie5.1接口x2)
主板：ProArt X870E wifi (pcie slot1 slot2 支持将pcie5.0x16拆分成完整的2根pcie5.0x8)
CPU：9900X
散热：猫头鹰 NH-U12A
内存：宏碁凌霜 48G*2 DDR5 6000MHz C28
硬盘：致钛Ti plus 7100s 2t

pilipala

@terry 它其实是压缩机制有bug，三次压缩达不到target会auto-reset会话，我在git上提issue给Hermes项目了，turbo-quant 目前好像还不支持llama.cpp吧，应该快了。

pilipala

@applejuice 如果是coding就用在线api了，本来是想comfyui做剧，但真的挺烧时间的，需要花精力研究剧本分镜剪辑转场之类的，工作一忙起来下班就想躺平，出差也多，一直在吃灰…

pilipala

@joker_chang 多卡推荐长城的N系列，我已经用上了。你的配置单里是G系列吧，也很不错。

pilipala

atx3.1带双pcie5.1 16pin接口的10A电源大家有没有自己在用的，求推荐！

=======================================

先放几张图，后面再更新

pilipala

机箱是PA602，电源是微星的AI1300ts月神，只有1300w功率支持两个pcie5.1的16pin接口，带电流过载保护防烧接口，两个坑，
1、这吊电源和电箱不兼容，只支持风扇朝上安装，PA602的机箱电源仓也是全封闭的，根本进不了气。
2、1300w的电源居然是16A的，我特么都无语了…… 独此一家

买的都是京东自营的，非常爽快，直接给我退货了。

抡锤者

pilipala

帖子