抡锤者

Leon Y

@applejuice 说:

3 slot

对，3 slot

Leon Y

@applejuice 你看我的帖子 https://lcz.me/topic/466/双3090-ollama-加载-q8-视觉模型瞬间断电重启-求老哥们把脉

Leon Y

我的风冷方案

Leon Y

@applejuice 说:

@Leon-Y prefill 呢？

忘了看了

Leon Y

@Larry-Wang 说:

@Leon-Y 3090的nvlink在哪里买？多少钱呀？

taobao, RMB2500

Leon Y

@funs 说:

请问一下，https://huggingface.co/huihui-ai/Qwen3.6-27B-Abliterated-GGUF 现在访问404了去哪里可以下载到原版？

https://huggingface.co/huihui-ai/Huihui-Qwen3.6-27B-abliterated-MTP-GGUF

Leon Y

我的也是3090x2+NVLink，vLLM跑Qwen3.6-27B 性能
Narrative
• 吞吐: 92.4 tok/s

Code
• 吞吐: 99.0 tok/s

Leon Y

Qwen3.6-27B我也是上不了多模态，只能退回到Qwen3-VL

Leon Y

目前只关心钱币年号，铸钱局和版别
品相, 锈迹, 戳记, 磨损, 包浆, 边齿这些都是噪音，用算法suppress掉

Leon Y

一开始冷启动是用数据库的人工标注的拓片图和照片，然后用海量的盲切图片计算相似度，相似度极高的话，就完成标签传播。高置信的图片会作为下一轮的golden samples。

Leon Y

全功率机器太吵了，功率墙锁了150W，挂机慢慢跑

Leon Y

@TT-Mic 说:

大概率识别精度达不到，至少我是失败了，祝你成功。

详细说说？

Leon Y

@Tony-Wang 说:

已经完成了吗? 还是在训练中? 效果怎么样? 建议将整个工程描述得更清晰些, 可以形成几个文章.

我理解 AI Agent 只是辅助训练, 后续还有对标识正确性的检验, 模型的质量, 以及应用场景和方法等等.

还在训练中，这几天就忙着搭了基于 hermes自动迭代，踩了不少坑

Leon Y

注意：此文由AI辅助生成，不喜勿喷

各位同好大家好，今天在这里和大家分享一个我最近利用Hermes Agent构建、自建算力训练的计算机视觉多级分类项目。

古泉（目前主要是明清钱币）的图像识别在实际应用中一直是一个强类间干扰、细粒度的分类难点。目前，项目已跑通 52 万张有效图像的全流程训练，整体架构设计、特征对齐与 Hermes Agent 托管的自动化闭环已平稳落地。

一、训练管线设计：多阶段递进式微调

为了最大化特征提取效率，整个微调管线分为三个递进的阶段：

Phase 1: 朝代分类（热身阶段）
Phase 2: 钱局分类（高维空间度量学习）
Phase 3: 细粒度版别判别

二、无监督自训练闭环

面对 50 万级别的数据量，人肉标注成本极其高昂。我设计了一套无监督自迭代标注流程，让图片数据集在无人工介入的状态下实现“滚雪球”式增长：

该闭环利用阶段性产出的特征向量在海量无标记数据中进行高置信度判定。对于处于决策边界的模糊样本，则由后台调用本地大语言模型服务进行多维度的共识投票清洗，洗净标签噪声后自动并入数据集进行重训，实现模型精度的自我进化。

三、基于 Hermes Agent 的自愈式自动化运维

在大规模模型微调中，工程中断与硬件异常是最耗费精力的部分。为此，引入了 Hermes Agent 作为整个训练管线的托管核心，实现了完全自愈的运行模式：

异常秒级诊断与热修补：
在训练初期，由于处理多达 41 万张图的 DataLoader 占用了极高的子进程状态，导致系统物理内存剧烈抖动并触发 Exit Code 137（SIGKILL）内存溢出崩溃。
Hermes Agent 监测到异常后，自动通过 SSH 登录服务器，秒级诊断了主机的内存水位线与 Docker 共享内存上限，不仅直接远程热修补了训练代码，将读取方式降噪重构，更通过重构 Docker 参数将 --shm-size 动态扩容。
双 GPU 负载与温度实时调控：
在 Phase 2 多卡并行启动后，Hermes Agent 会通过定时任务自动收集两张 RTX 3090 的温度、显存占用以及并行负载。
完全自主的故障自愈机制：
Hermes Agent 具备高度的自主调试与运行主导权。一旦watch dog在日志中嗅探到任何 DDP（分布式并行）死锁、显卡掉线或 PyTorch 运行时错误，Hermes Agent 的推理大脑会瞬间激活，自主进行日志追溯、修改远程代码并重启 Docker 容器，并在恢复健康后向我们的终端推送完整的排查与修复报告。

Hermes Agent 作为基础架构中的“AI 运维与算法助理”，彻底将我从冗长、繁琐的“盯日志改 Bug”中解放出来，让研究精力可以 100% 聚焦在算法架构本身。

欢迎对图像检索、细粒度度量学习以及 AI Agent 托管训练方向感兴趣的同行多提宝贵意见，共同探讨！

硬件信息可以参考我之前的帖子 https://lcz.me/topic/466/双3090-ollama-加载-q8-视觉模型瞬间断电重启-求老哥们把脉

Leon Y

@passss 说:

@Leon-Y 我也双3090，用海盗船hx1200电源单路，lm studio,用qwen27b-mpt-q4,也是瞬时断电重启，现在限制到250W，用Q8非mtp模型128k上下文，25tps,q4模型37tps,比大多数人慢很多。

看来RM1000X原生支持的ATX 3.1 可以应对显卡的瞬间峰值功耗。
hx1200 属于较早期的设计。

Leon Y

Leon Y

@Larry-Wang 说:

@Leon-Y 你用Corsair RM1000X给两张3090+主板供电吗？第二张卡用那个接口供电？

Corsair RM1000X有6个CPU/PCIe接口，两个3090只占了4个

Leon Y

@passss 说:

楼主双3090用多大的电源？我1200W跑27b-mtp不限制到300W以下就要重启

我用的Corsair RM1000X，同时满载300W稳稳的，双3090卡换了新的硅脂和散热贴，温度压在75度左右，就是风扇噪音有点吓人

Leon Y

Corsair RM1000X 虽然只有1000W，但是目前还是稳稳的，还是电源的瞬时OCP问题

Leon Y

asked hermes to learn https://github.com/noonghunna/club-3090 and changed PSU to Corsair RM1000X
it works now!!!

抡锤者

Leon Y

帖子