跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI Agent
  3. 关于业务AI升级的几个疑问请教各位大佬:1、视觉图片识别开源模型哪个合适?2、OCR识别哪家开源模型做得好?3、小型应用什么工具开发比较好?

关于业务AI升级的几个疑问请教各位大佬:1、视觉图片识别开源模型哪个合适?2、OCR识别哪家开源模型做得好?3、小型应用什么工具开发比较好?

已定时 已固定 已锁定 已移动 AI Agent
42 帖子 9 发布者 163 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • M 在线
    M 在线
    mark
    超凡大师
    编写于 最后由 编辑
    #12

    OCR识别模型, 这个我用的是 阿里云的图片识别. 本地的模型, 我没觉得那个好.

    这个问题,有空我研究下. 试过几个视觉模型, 我感觉一般.

    我现在本地模型 是 glm 4.6v ,这个带图片识别.

    1 条回复 最后回复
    0
    • M 在线
      M 在线
      mark
      超凡大师
      编写于 最后由 编辑
      #13

      OCR识别模型, 这个我用的是 阿里云的图片识别. 本地的模型, 我没觉得那个好.

      这个问题,有空我研究下. 试过几个视觉模型, 我感觉一般.

      我现在本地模型 是 glm 4.6v ,这个带图片识别.

      1 条回复 最后回复
      0
      • M 在线
        M 在线
        mark
        超凡大师
        编写于 最后由 mark 编辑
        #14

        我刚才 给你试了下 :

        这是图片.
        5027fff9-b633-4453-98cf-b2c5b73c8a2c-image.jpeg

        识别效果:
        f30e9739-2d90-4104-ba5a-1e24cff5b473-image.jpeg

        1 条回复 最后回复
        0
        • M 在线
          M 在线
          mark
          超凡大师
          编写于 最后由 编辑
          #15

          这是 lm studio 调用 :

          ddba92a2-3702-4572-b682-4efb779b425c-image.jpeg

          1 条回复 最后回复
          0
          • M 在线
            M 在线
            mark
            超凡大师
            编写于 最后由 编辑
            #16

            我测试了 glm4.6v 和 qwen3.6 27b 都可以 正常识别图片的.

            0ecbc64b-85d6-4ad4-9a3f-bc78ca5cf4b2-image.jpeg

            九龙杨生九 1 条回复 最后回复
            1
            • mei liM 离线
              mei liM 离线
              mei li
              德高望重 劳动模范
              编写于 最后由 mei li 编辑
              #17

              看来大家都开始用ai来审查ai生成的图片了,我后期想的是工作流打通后可以用解码的方式去抽取生成的视频的某些帧审查人物有无畸变,有没有多根手指那些,开发一个专门的工作流。看了零度解说,图片识别最强的还是claude code 的神话模型(唯一 一个可以准确识别筷子数量的图片模型),你可以去看一下他的视频就在最近几期。3fcf7289-00ba-433c-b3f4-ab48d7c91563-image.jpeg

              M 九龙杨生九 terryT 4 条回复 最后回复
              0
              • mei liM mei li

                看来大家都开始用ai来审查ai生成的图片了,我后期想的是工作流打通后可以用解码的方式去抽取生成的视频的某些帧审查人物有无畸变,有没有多根手指那些,开发一个专门的工作流。看了零度解说,图片识别最强的还是claude code 的神话模型(唯一 一个可以准确识别筷子数量的图片模型),你可以去看一下他的视频就在最近几期。3fcf7289-00ba-433c-b3f4-ab48d7c91563-image.jpeg

                M 在线
                M 在线
                mark
                超凡大师
                编写于 最后由 编辑
                #18

                @mei-li 可以去尝试. 一切都有可能啊.

                1 条回复 最后回复
                0
                • M mark

                  我测试了 glm4.6v 和 qwen3.6 27b 都可以 正常识别图片的.

                  0ecbc64b-85d6-4ad4-9a3f-bc78ca5cf4b2-image.jpeg

                  九龙杨生九 离线
                  九龙杨生九 离线
                  九龙杨生
                  技术大牛
                  编写于 最后由 编辑
                  #19

                  @mark 图片的基本识别都是没问题的,QWEN 3.6 27B现在我用了图片生成表格这些都还可以,我是想找个专门的图片识别模型来做事,现在想法就是线上文本模型+线下视觉模型;

                  这样选择的根本原因是线下模型的上下文长度太低了,做事情的时候单个任务的几次对话(160K上下文)就必须要压缩几次才能做完,成品效果还不太满意;所以还是要搞线上的长上下文才给力,线下模型处理单个独立的任务打辅助就行了

                  欢迎访问亿量科技官网
                  欢迎访问亿量科技油管频道

                  1 条回复 最后回复
                  0
                  • mei liM mei li

                    看来大家都开始用ai来审查ai生成的图片了,我后期想的是工作流打通后可以用解码的方式去抽取生成的视频的某些帧审查人物有无畸变,有没有多根手指那些,开发一个专门的工作流。看了零度解说,图片识别最强的还是claude code 的神话模型(唯一 一个可以准确识别筷子数量的图片模型),你可以去看一下他的视频就在最近几期。3fcf7289-00ba-433c-b3f4-ab48d7c91563-image.jpeg

                    九龙杨生九 离线
                    九龙杨生九 离线
                    九龙杨生
                    技术大牛
                    编写于 最后由 编辑
                    #20

                    @mei-li 那种高端货一是用不起,二是别人不给用啊~

                    欢迎访问亿量科技官网
                    欢迎访问亿量科技油管频道

                    mei liM 1 条回复 最后回复
                    0
                    • M 在线
                      M 在线
                      mark
                      超凡大师
                      编写于 最后由 mark 编辑
                      #21

                      这个你应该尝试下 构建本地的workflow, 别想着一次性, 能做完.

                      我曾经也想过 调用一次,就能成功.

                      在线API模型, 有AI审查,有时候图片没有违规,他也拒绝回答.

                      本地开源模型, 这个倒是很好,但是 模型能力太肉.

                      这真是一个两难的选择.

                      九龙杨生九 1 条回复 最后回复
                      1
                      • 九龙杨生九 九龙杨生

                        @mei-li 那种高端货一是用不起,二是别人不给用啊~

                        mei liM 离线
                        mei liM 离线
                        mei li
                        德高望重 劳动模范
                        编写于 最后由 编辑
                        #22

                        @九龙杨生 我想想还是要想办法用一下,抛开某些原因该学习还是要学习一下。万一你一用发现我靠差距好大,感觉不一定要用起码要测试一下,看看差距多大,起码有个参考吧。

                        1 条回复 最后回复
                        1
                        • M 在线
                          M 在线
                          mark
                          超凡大师
                          编写于 最后由 mark 编辑
                          #23

                          hermes agent ,他定位 就是个人助手, 其实企业级我们一般不会用.
                          原因是主要是风险不可控. 公司小,还行.
                          好多都是电商公司,就老板和老板娘两个人.

                          但是上市公司,一般不敢用这个.
                          主要是怕数据泄漏. 个人无所谓了.

                          九龙杨生九 1 条回复 最后回复
                          1
                          • mei liM mei li

                            看来大家都开始用ai来审查ai生成的图片了,我后期想的是工作流打通后可以用解码的方式去抽取生成的视频的某些帧审查人物有无畸变,有没有多根手指那些,开发一个专门的工作流。看了零度解说,图片识别最强的还是claude code 的神话模型(唯一 一个可以准确识别筷子数量的图片模型),你可以去看一下他的视频就在最近几期。3fcf7289-00ba-433c-b3f4-ab48d7c91563-image.jpeg

                            terryT 在线
                            terryT 在线
                            terry
                            超级版主
                            编写于 最后由 编辑
                            #24

                            @mei-li 你为什么给零度打码?我以为是看到岛国片了,我说怎么这么眼熟.....

                            油管:https://www.youtube.com/@抡锤者

                            mei liM 1 条回复 最后回复
                            0
                            • mei liM mei li

                              看来大家都开始用ai来审查ai生成的图片了,我后期想的是工作流打通后可以用解码的方式去抽取生成的视频的某些帧审查人物有无畸变,有没有多根手指那些,开发一个专门的工作流。看了零度解说,图片识别最强的还是claude code 的神话模型(唯一 一个可以准确识别筷子数量的图片模型),你可以去看一下他的视频就在最近几期。3fcf7289-00ba-433c-b3f4-ab48d7c91563-image.jpeg

                              M 在线
                              M 在线
                              mark
                              超凡大师
                              编写于 最后由 mark 编辑
                              #25

                              @mei-li 0度 算是 YT 科技圈的 大V了, 百万的粉丝.

                              我向他投稿过, 就是 hermes agent windows 原生版本. 他没采纳.

                              他做的视频,主要给那些想白嫖的软件技巧,我感觉他技术水平一般.

                              推广什么软件, 自己搞一套多好.

                              等hermes agent 官方出了 Windows 版本,

                              他还还说 这不是第三方的集成的

                              他还不知道, hermes agent Windows 核心代码 ,是我提交给官方的.

                              6136a63c-27a5-470f-885e-c0d31037d836-image.jpeg

                              terryT mei liM 2 条回复 最后回复
                              0
                              • M mark

                                @mei-li 0度 算是 YT 科技圈的 大V了, 百万的粉丝.

                                我向他投稿过, 就是 hermes agent windows 原生版本. 他没采纳.

                                他做的视频,主要给那些想白嫖的软件技巧,我感觉他技术水平一般.

                                推广什么软件, 自己搞一套多好.

                                等hermes agent 官方出了 Windows 版本,

                                他还还说 这不是第三方的集成的

                                他还不知道, hermes agent Windows 核心代码 ,是我提交给官方的.

                                6136a63c-27a5-470f-885e-c0d31037d836-image.jpeg

                                terryT 在线
                                terryT 在线
                                terry
                                超级版主
                                编写于 最后由 编辑
                                #26

                                @mark 赛道不同,你投稿的内容与他的频道定位不同,不采纳很正常。大多数人并不需要掌握太深的知识,这不代表他不懂,只是术业有专攻而已。
                                另外,你可能不知道,做教程类频道自己写不难,因为都是自己的经验,要是接受投稿,尤其是小众领域,他还要理解你的项目,然后实操,需求不大的话,播放数据又不好,所以没采纳正常。
                                还有,大主播邮件多的很,有可能根本没看到。

                                油管:https://www.youtube.com/@抡锤者

                                1 条回复 最后回复
                                1
                                • M mark

                                  这个你应该尝试下 构建本地的workflow, 别想着一次性, 能做完.

                                  我曾经也想过 调用一次,就能成功.

                                  在线API模型, 有AI审查,有时候图片没有违规,他也拒绝回答.

                                  本地开源模型, 这个倒是很好,但是 模型能力太肉.

                                  这真是一个两难的选择.

                                  九龙杨生九 离线
                                  九龙杨生九 离线
                                  九龙杨生
                                  技术大牛
                                  编写于 最后由 编辑
                                  #27

                                  @mark 是的,我现在就是每一段一个hermes技能,丢给他操作然后我来审核结果,结果没问题了再让他做下一段。

                                  欢迎访问亿量科技官网
                                  欢迎访问亿量科技油管频道

                                  1 条回复 最后回复
                                  0
                                  • M mark

                                    hermes agent ,他定位 就是个人助手, 其实企业级我们一般不会用.
                                    原因是主要是风险不可控. 公司小,还行.
                                    好多都是电商公司,就老板和老板娘两个人.

                                    但是上市公司,一般不敢用这个.
                                    主要是怕数据泄漏. 个人无所谓了.

                                    九龙杨生九 离线
                                    九龙杨生九 离线
                                    九龙杨生
                                    技术大牛
                                    编写于 最后由 编辑
                                    #28

                                    @mark 是的,为了避免风险,现在Hermes能够接触到的数据都要本机和异地云端做好备份。

                                    欢迎访问亿量科技官网
                                    欢迎访问亿量科技油管频道

                                    1 条回复 最后回复
                                    0
                                    • A 离线
                                      A 离线
                                      alanwoo
                                      编写于 最后由 编辑
                                      #29

                                      我把qwen3-vl 8b q4當OCR用,還不錯,主要是不佔用太多內存大概6G,qwen3.6-27b q4推理能力更強只是需要更大內存,大概16G以上

                                      1 条回复 最后回复
                                      0
                                      • M mark

                                        @mei-li 0度 算是 YT 科技圈的 大V了, 百万的粉丝.

                                        我向他投稿过, 就是 hermes agent windows 原生版本. 他没采纳.

                                        他做的视频,主要给那些想白嫖的软件技巧,我感觉他技术水平一般.

                                        推广什么软件, 自己搞一套多好.

                                        等hermes agent 官方出了 Windows 版本,

                                        他还还说 这不是第三方的集成的

                                        他还不知道, hermes agent Windows 核心代码 ,是我提交给官方的.

                                        6136a63c-27a5-470f-885e-c0d31037d836-image.jpeg

                                        mei liM 离线
                                        mei liM 离线
                                        mei li
                                        德高望重 劳动模范
                                        编写于 最后由 编辑
                                        #30

                                        @mark 术业有专攻,人家就是抓住了白嫖党心理,这样大概率不是程序员出身,一般是测试,只知道有这样产品不知道怎么来的。

                                        M 1 条回复 最后回复
                                        0
                                        • terryT terry

                                          @mei-li 你为什么给零度打码?我以为是看到岛国片了,我说怎么这么眼熟.....

                                          mei liM 离线
                                          mei liM 离线
                                          mei li
                                          德高望重 劳动模范
                                          编写于 最后由 编辑
                                          #31

                                          @terry 我也纯属于尊重人家肖像权了,哈哈

                                          1 条回复 最后回复
                                          0

                                          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                          有了你的建议,这篇帖子会更精彩哦 💗

                                          注册 登录
                                          回复
                                          • 在新帖中回复
                                          登录后回复
                                          • 从旧到新
                                          • 从新到旧
                                          • 最多赞同


                                          • 登录

                                          • 没有帐号? 注册

                                          • 第一个帖子
                                            最后一个帖子
                                          0
                                          • 版块
                                          • 最新
                                          • 标签
                                          • 热门
                                          • 用户
                                          • 群组