跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI进阶话题
  3. 【成果分享】52万级古泉图像分类:基于度量学习与 Hermes Agent 自愈机制的训练实践

【成果分享】52万级古泉图像分类:基于度量学习与 Hermes Agent 自愈机制的训练实践

已定时 已固定 已锁定 已移动 AI进阶话题
13 帖子 5 发布者 189 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • Leon YL 离线
    Leon YL 离线
    Leon Y
    编写于 最后由 编辑
    #1

    注意:此文由AI辅助生成,不喜勿喷

    各位同好大家好,今天在这里和大家分享一个我最近利用Hermes Agent构建、自建算力训练的计算机视觉多级分类项目。

    古泉(目前主要是明清钱币)的图像识别在实际应用中一直是一个强类间干扰、细粒度的分类难点。目前,项目已跑通 52 万张有效图像 的全流程训练,整体架构设计、特征对齐与 Hermes Agent 托管的自动化闭环已平稳落地。

    一、 训练管线设计:多阶段递进式微调

    为了最大化特征提取效率,整个微调管线分为三个递进的阶段:

    1. Phase 1: 朝代分类(热身阶段)
    2. Phase 2: 钱局分类(高维空间度量学习)
    3. Phase 3: 细粒度版别判别

    二、 无监督自训练闭环

    面对 50 万级别的数据量,人肉标注成本极其高昂。我设计了一套无监督自迭代标注流程,让图片数据集在无人工介入的状态下实现“滚雪球”式增长:
    ea3ee56a-4423-4862-bebc-c50eecad8639-image.jpeg
    该闭环利用阶段性产出的特征向量在海量无标记数据中进行高置信度判定。对于处于决策边界的模糊样本,则由后台调用本地大语言模型服务进行多维度的共识投票清洗,洗净标签噪声后自动并入数据集进行重训,实现模型精度的自我进化。


    三、 基于 Hermes Agent 的自愈式自动化运维

    在大规模模型微调中,工程中断与硬件异常是最耗费精力的部分。为此,引入了 Hermes Agent 作为整个训练管线的托管核心,实现了完全自愈的运行模式:

    • 异常秒级诊断与热修补:
      在训练初期,由于处理多达 41 万张图的 DataLoader 占用了极高的子进程状态,导致系统物理内存剧烈抖动并触发 Exit Code 137(SIGKILL)内存溢出崩溃。
      Hermes Agent 监测到异常后,自动通过 SSH 登录服务器,秒级诊断了主机的内存水位线与 Docker 共享内存上限,不仅直接远程热修补了训练代码,将读取方式降噪重构,更通过重构 Docker 参数将 --shm-size 动态扩容。
    • 双 GPU 负载与温度实时调控:
      在 Phase 2 多卡并行启动后,Hermes Agent 会通过定时任务自动收集两张 RTX 3090 的温度、显存占用以及并行负载。
    • 完全自主的故障自愈机制:
      Hermes Agent 具备高度的自主调试与运行主导权。一旦watch dog在日志中嗅探到任何 DDP(分布式并行)死锁、显卡掉线或 PyTorch 运行时错误,Hermes Agent 的推理大脑会瞬间激活,自主进行日志追溯、修改远程代码并重启 Docker 容器,并在恢复健康后向我们的终端推送完整的排查与修复报告。

    Hermes Agent 作为基础架构中的“AI 运维与算法助理”,彻底将我从冗长、繁琐的“盯日志改 Bug”中解放出来,让研究精力可以 100% 聚焦在算法架构本身。

    欢迎对图像检索、细粒度度量学习以及 AI Agent 托管训练方向感兴趣的同行多提宝贵意见,共同探讨!

    硬件信息可以参考我之前的帖子 https://lcz.me/topic/466/双3090-ollama-加载-q8-视觉模型瞬间断电重启-求老哥们把脉

    kos orK 1 条回复 最后回复
    3
    • Tony WangT 在线
      Tony WangT 在线
      Tony Wang
      超级版主
      编写于 最后由 编辑
      #2

      已经完成了吗? 还是在训练中? 效果怎么样? 建议将整个工程描述得更清晰些, 可以形成几个文章.

      我理解 AI Agent 只是辅助训练, 后续还有对标识正确性的检验, 模型的质量, 以及应用场景和方法等等.

      Leon YL 1 条回复 最后回复
      0
      • TT MicT 离线
        TT MicT 离线
        TT Mic
        编写于 最后由 编辑
        #3

        大概率识别精度达不到,至少我是失败了,祝你成功。

        Leon YL 1 条回复 最后回复
        0
        • Tony WangT Tony Wang

          已经完成了吗? 还是在训练中? 效果怎么样? 建议将整个工程描述得更清晰些, 可以形成几个文章.

          我理解 AI Agent 只是辅助训练, 后续还有对标识正确性的检验, 模型的质量, 以及应用场景和方法等等.

          Leon YL 离线
          Leon YL 离线
          Leon Y
          编写于 最后由 编辑
          #4

          @Tony-Wang 说:

          已经完成了吗? 还是在训练中? 效果怎么样? 建议将整个工程描述得更清晰些, 可以形成几个文章.

          我理解 AI Agent 只是辅助训练, 后续还有对标识正确性的检验, 模型的质量, 以及应用场景和方法等等.

          还在训练中,这几天就忙着搭了基于 hermes自动迭代,踩了不少坑

          1 条回复 最后回复
          0
          • TT MicT TT Mic

            大概率识别精度达不到,至少我是失败了,祝你成功。

            Leon YL 离线
            Leon YL 离线
            Leon Y
            编写于 最后由 编辑
            #5

            @TT-Mic 说:

            大概率识别精度达不到,至少我是失败了,祝你成功。

            详细说说?

            1 条回复 最后回复
            0
            • Leon YL 离线
              Leon YL 离线
              Leon Y
              编写于 最后由 编辑
              #6

              全功率机器太吵了,功率墙锁了150W,挂机慢慢跑

              1 条回复 最后回复
              0
              • Leon YL Leon Y

                注意:此文由AI辅助生成,不喜勿喷

                各位同好大家好,今天在这里和大家分享一个我最近利用Hermes Agent构建、自建算力训练的计算机视觉多级分类项目。

                古泉(目前主要是明清钱币)的图像识别在实际应用中一直是一个强类间干扰、细粒度的分类难点。目前,项目已跑通 52 万张有效图像 的全流程训练,整体架构设计、特征对齐与 Hermes Agent 托管的自动化闭环已平稳落地。

                一、 训练管线设计:多阶段递进式微调

                为了最大化特征提取效率,整个微调管线分为三个递进的阶段:

                1. Phase 1: 朝代分类(热身阶段)
                2. Phase 2: 钱局分类(高维空间度量学习)
                3. Phase 3: 细粒度版别判别

                二、 无监督自训练闭环

                面对 50 万级别的数据量,人肉标注成本极其高昂。我设计了一套无监督自迭代标注流程,让图片数据集在无人工介入的状态下实现“滚雪球”式增长:
                ea3ee56a-4423-4862-bebc-c50eecad8639-image.jpeg
                该闭环利用阶段性产出的特征向量在海量无标记数据中进行高置信度判定。对于处于决策边界的模糊样本,则由后台调用本地大语言模型服务进行多维度的共识投票清洗,洗净标签噪声后自动并入数据集进行重训,实现模型精度的自我进化。


                三、 基于 Hermes Agent 的自愈式自动化运维

                在大规模模型微调中,工程中断与硬件异常是最耗费精力的部分。为此,引入了 Hermes Agent 作为整个训练管线的托管核心,实现了完全自愈的运行模式:

                • 异常秒级诊断与热修补:
                  在训练初期,由于处理多达 41 万张图的 DataLoader 占用了极高的子进程状态,导致系统物理内存剧烈抖动并触发 Exit Code 137(SIGKILL)内存溢出崩溃。
                  Hermes Agent 监测到异常后,自动通过 SSH 登录服务器,秒级诊断了主机的内存水位线与 Docker 共享内存上限,不仅直接远程热修补了训练代码,将读取方式降噪重构,更通过重构 Docker 参数将 --shm-size 动态扩容。
                • 双 GPU 负载与温度实时调控:
                  在 Phase 2 多卡并行启动后,Hermes Agent 会通过定时任务自动收集两张 RTX 3090 的温度、显存占用以及并行负载。
                • 完全自主的故障自愈机制:
                  Hermes Agent 具备高度的自主调试与运行主导权。一旦watch dog在日志中嗅探到任何 DDP(分布式并行)死锁、显卡掉线或 PyTorch 运行时错误,Hermes Agent 的推理大脑会瞬间激活,自主进行日志追溯、修改远程代码并重启 Docker 容器,并在恢复健康后向我们的终端推送完整的排查与修复报告。

                Hermes Agent 作为基础架构中的“AI 运维与算法助理”,彻底将我从冗长、繁琐的“盯日志改 Bug”中解放出来,让研究精力可以 100% 聚焦在算法架构本身。

                欢迎对图像检索、细粒度度量学习以及 AI Agent 托管训练方向感兴趣的同行多提宝贵意见,共同探讨!

                硬件信息可以参考我之前的帖子 https://lcz.me/topic/466/双3090-ollama-加载-q8-视觉模型瞬间断电重启-求老哥们把脉

                kos orK 离线
                kos orK 离线
                kos or
                劳动模范 德高望重
                编写于 最后由 编辑
                #7

                @Leon-Y 说:

                人肉标注成本极其高昂。我设计了一套无监督自迭代标注流程,让图片数据集在无人工介入的状态下实现“滚雪球”式增长:

                一開始是不是需要先做一批100張的人工標注給agent參考 ? 當golden samples 黃金標準, 至少有個100張人工高標準等級的基礎

                1 条回复 最后回复
                -1
                • kos orK 离线
                  kos orK 离线
                  kos or
                  劳动模范 德高望重
                  编写于 最后由 编辑
                  #8

                  樓主的自動標註 讓我想到 Roboflow 其中一項功能是先提供幾張樣品圖, 然後roboflow平台就會自動標注後續30張圖片
                  概念上應該相近?

                  2026 年 5 款最佳影像標註工具
                  https://blog.roboflow.com/best-image-annotation-tools/

                  1 条回复 最后回复
                  0
                  • Leon YL 离线
                    Leon YL 离线
                    Leon Y
                    编写于 最后由 编辑
                    #9

                    一开始冷启动是用数据库的人工标注的拓片图和照片,然后用海量的盲切图片计算相似度,相似度极高的话,就完成标签传播。高置信的图片会作为下一轮的golden samples。

                    Tony WangT 2 条回复 最后回复
                    2
                    • ,Tony WangT Tony Wang 将此主题从 AI Agent 移至此处
                    • Leon YL Leon Y

                      一开始冷启动是用数据库的人工标注的拓片图和照片,然后用海量的盲切图片计算相似度,相似度极高的话,就完成标签传播。高置信的图片会作为下一轮的golden samples。

                      Tony WangT 在线
                      Tony WangT 在线
                      Tony Wang
                      超级版主
                      编写于 最后由 编辑
                      #10

                      @Leon-Y

                      期待你继续折腾并有成果. 回头多整理些内容上来, 给大家分享一下. 这是一个不错的实际应用. 👍

                      我把主题移动了, 因为我理解 AI-agent 只是监督学习任务. 实际的工程 包括了训练, 检验, 应用等. 属于一个相对复杂的话题.

                      1 条回复 最后回复
                      1
                      • Leon YL Leon Y

                        一开始冷启动是用数据库的人工标注的拓片图和照片,然后用海量的盲切图片计算相似度,相似度极高的话,就完成标签传播。高置信的图片会作为下一轮的golden samples。

                        Tony WangT 在线
                        Tony WangT 在线
                        Tony Wang
                        超级版主
                        编写于 最后由 编辑
                        #11

                        @Leon-Y

                        我有个问题, 你标注的内容除了 钱币种类 之外, 还会有哪些信息?

                        比如品相, 锈迹, 戳记, 磨损, 包浆, 边齿 等等...

                        1 条回复 最后回复
                        0
                        • Leon YL 离线
                          Leon YL 离线
                          Leon Y
                          编写于 最后由 编辑
                          #12

                          目前只关心钱币年号,铸钱局和版别
                          品相, 锈迹, 戳记, 磨损, 包浆, 边齿这些都是噪音,用算法suppress掉

                          1 条回复 最后回复
                          1
                          • williamlouisW 离线
                            williamlouisW 离线
                            williamlouis
                            超级版主
                            编写于 最后由 编辑
                            #13

                            优秀。到了我的知识盲区。不过可以看懂。学习了。

                            个人主页:xlkj.org Telegram https://t.me/xlkjorg

                            1 条回复 最后回复
                            0

                            你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                            厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                            有了你的建议,这篇帖子会更精彩哦 💗

                            注册 登录
                            回复
                            • 在新帖中回复
                            登录后回复
                            • 从旧到新
                            • 从新到旧
                            • 最多赞同


                            • 登录

                            • 没有帐号? 注册

                            • 第一个帖子
                              最后一个帖子
                            0
                            • 版块
                            • 最新
                            • 标签
                            • 热门
                            • 用户
                            • 群组