【成果分享】52万级古泉图像分类：基于度量学习与 Hermes Agent 自愈机制的训练实践

Leon Y

注意：此文由AI辅助生成，不喜勿喷

各位同好大家好，今天在这里和大家分享一个我最近利用Hermes Agent构建、自建算力训练的计算机视觉多级分类项目。

古泉（目前主要是明清钱币）的图像识别在实际应用中一直是一个强类间干扰、细粒度的分类难点。目前，项目已跑通 52 万张有效图像的全流程训练，整体架构设计、特征对齐与 Hermes Agent 托管的自动化闭环已平稳落地。

一、训练管线设计：多阶段递进式微调

为了最大化特征提取效率，整个微调管线分为三个递进的阶段：

Phase 1: 朝代分类（热身阶段）
Phase 2: 钱局分类（高维空间度量学习）
Phase 3: 细粒度版别判别

二、无监督自训练闭环

面对 50 万级别的数据量，人肉标注成本极其高昂。我设计了一套无监督自迭代标注流程，让图片数据集在无人工介入的状态下实现“滚雪球”式增长：

该闭环利用阶段性产出的特征向量在海量无标记数据中进行高置信度判定。对于处于决策边界的模糊样本，则由后台调用本地大语言模型服务进行多维度的共识投票清洗，洗净标签噪声后自动并入数据集进行重训，实现模型精度的自我进化。

三、基于 Hermes Agent 的自愈式自动化运维

在大规模模型微调中，工程中断与硬件异常是最耗费精力的部分。为此，引入了 Hermes Agent 作为整个训练管线的托管核心，实现了完全自愈的运行模式：

异常秒级诊断与热修补：
在训练初期，由于处理多达 41 万张图的 DataLoader 占用了极高的子进程状态，导致系统物理内存剧烈抖动并触发 Exit Code 137（SIGKILL）内存溢出崩溃。
Hermes Agent 监测到异常后，自动通过 SSH 登录服务器，秒级诊断了主机的内存水位线与 Docker 共享内存上限，不仅直接远程热修补了训练代码，将读取方式降噪重构，更通过重构 Docker 参数将 --shm-size 动态扩容。
双 GPU 负载与温度实时调控：
在 Phase 2 多卡并行启动后，Hermes Agent 会通过定时任务自动收集两张 RTX 3090 的温度、显存占用以及并行负载。
完全自主的故障自愈机制：
Hermes Agent 具备高度的自主调试与运行主导权。一旦watch dog在日志中嗅探到任何 DDP（分布式并行）死锁、显卡掉线或 PyTorch 运行时错误，Hermes Agent 的推理大脑会瞬间激活，自主进行日志追溯、修改远程代码并重启 Docker 容器，并在恢复健康后向我们的终端推送完整的排查与修复报告。

Hermes Agent 作为基础架构中的“AI 运维与算法助理”，彻底将我从冗长、繁琐的“盯日志改 Bug”中解放出来，让研究精力可以 100% 聚焦在算法架构本身。

欢迎对图像检索、细粒度度量学习以及 AI Agent 托管训练方向感兴趣的同行多提宝贵意见，共同探讨！

硬件信息可以参考我之前的帖子 https://lcz.me/topic/466/双3090-ollama-加载-q8-视觉模型瞬间断电重启-求老哥们把脉

Tony Wang

已经完成了吗? 还是在训练中? 效果怎么样? 建议将整个工程描述得更清晰些, 可以形成几个文章.

我理解 AI Agent 只是辅助训练, 后续还有对标识正确性的检验, 模型的质量, 以及应用场景和方法等等.

TT Mic

大概率识别精度达不到，至少我是失败了，祝你成功。

Leon Y

@Tony-Wang 说:

已经完成了吗? 还是在训练中? 效果怎么样? 建议将整个工程描述得更清晰些, 可以形成几个文章.

我理解 AI Agent 只是辅助训练, 后续还有对标识正确性的检验, 模型的质量, 以及应用场景和方法等等.

还在训练中，这几天就忙着搭了基于 hermes自动迭代，踩了不少坑

Leon Y

@TT-Mic 说:

大概率识别精度达不到，至少我是失败了，祝你成功。

详细说说？

Leon Y

全功率机器太吵了，功率墙锁了150W，挂机慢慢跑

kos or

@Leon-Y 说:

人肉标注成本极其高昂。我设计了一套无监督自迭代标注流程，让图片数据集在无人工介入的状态下实现“滚雪球”式增长：

一開始是不是需要先做一批100張的人工標注給agent參考？當golden samples 黃金標準, 至少有個100張人工高標準等級的基礎

kos or

樓主的自動標註讓我想到 Roboflow 其中一項功能是先提供幾張樣品圖, 然後roboflow平台就會自動標注後續30張圖片
概念上應該相近？

2026 年 5 款最佳影像標註工具
https://blog.roboflow.com/best-image-annotation-tools/

Leon Y

一开始冷启动是用数据库的人工标注的拓片图和照片，然后用海量的盲切图片计算相似度，相似度极高的话，就完成标签传播。高置信的图片会作为下一轮的golden samples。

Tony Wang

@Leon-Y

期待你继续折腾并有成果. 回头多整理些内容上来, 给大家分享一下. 这是一个不错的实际应用.

我把主题移动了, 因为我理解 AI-agent 只是监督学习任务. 实际的工程包括了训练, 检验, 应用等. 属于一个相对复杂的话题.

Tony Wang

@Leon-Y

我有个问题, 你标注的内容除了钱币种类之外, 还会有哪些信息?

比如品相, 锈迹, 戳记, 磨损, 包浆, 边齿等等...

Leon Y

目前只关心钱币年号，铸钱局和版别
品相, 锈迹, 戳记, 磨损, 包浆, 边齿这些都是噪音，用算法suppress掉

williamlouis

优秀。到了我的知识盲区。不过可以看懂。学习了。

抡锤者

【成果分享】52万级古泉图像分类：基于度量学习与 Hermes Agent 自愈机制的训练实践