跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI Agent
  3. 关于业务AI升级的几个疑问请教各位大佬:1、视觉图片识别开源模型哪个合适?2、OCR识别哪家开源模型做得好?3、小型应用什么工具开发比较好?

关于业务AI升级的几个疑问请教各位大佬:1、视觉图片识别开源模型哪个合适?2、OCR识别哪家开源模型做得好?3、小型应用什么工具开发比较好?

已定时 已固定 已锁定 已移动 AI Agent
42 帖子 9 发布者 163 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • mei liM 离线
    mei liM 离线
    mei li
    德高望重 劳动模范
    编写于 最后由 mei li 编辑
    #17

    看来大家都开始用ai来审查ai生成的图片了,我后期想的是工作流打通后可以用解码的方式去抽取生成的视频的某些帧审查人物有无畸变,有没有多根手指那些,开发一个专门的工作流。看了零度解说,图片识别最强的还是claude code 的神话模型(唯一 一个可以准确识别筷子数量的图片模型),你可以去看一下他的视频就在最近几期。3fcf7289-00ba-433c-b3f4-ab48d7c91563-image.jpeg

    M 九龙杨生九 terryT 4 条回复 最后回复
    0
    • mei liM mei li

      看来大家都开始用ai来审查ai生成的图片了,我后期想的是工作流打通后可以用解码的方式去抽取生成的视频的某些帧审查人物有无畸变,有没有多根手指那些,开发一个专门的工作流。看了零度解说,图片识别最强的还是claude code 的神话模型(唯一 一个可以准确识别筷子数量的图片模型),你可以去看一下他的视频就在最近几期。3fcf7289-00ba-433c-b3f4-ab48d7c91563-image.jpeg

      M 在线
      M 在线
      mark
      超凡大师
      编写于 最后由 编辑
      #18

      @mei-li 可以去尝试. 一切都有可能啊.

      1 条回复 最后回复
      0
      • M mark

        我测试了 glm4.6v 和 qwen3.6 27b 都可以 正常识别图片的.

        0ecbc64b-85d6-4ad4-9a3f-bc78ca5cf4b2-image.jpeg

        九龙杨生九 离线
        九龙杨生九 离线
        九龙杨生
        技术大牛
        编写于 最后由 编辑
        #19

        @mark 图片的基本识别都是没问题的,QWEN 3.6 27B现在我用了图片生成表格这些都还可以,我是想找个专门的图片识别模型来做事,现在想法就是线上文本模型+线下视觉模型;

        这样选择的根本原因是线下模型的上下文长度太低了,做事情的时候单个任务的几次对话(160K上下文)就必须要压缩几次才能做完,成品效果还不太满意;所以还是要搞线上的长上下文才给力,线下模型处理单个独立的任务打辅助就行了

        欢迎访问亿量科技官网
        欢迎访问亿量科技油管频道

        1 条回复 最后回复
        0
        • mei liM mei li

          看来大家都开始用ai来审查ai生成的图片了,我后期想的是工作流打通后可以用解码的方式去抽取生成的视频的某些帧审查人物有无畸变,有没有多根手指那些,开发一个专门的工作流。看了零度解说,图片识别最强的还是claude code 的神话模型(唯一 一个可以准确识别筷子数量的图片模型),你可以去看一下他的视频就在最近几期。3fcf7289-00ba-433c-b3f4-ab48d7c91563-image.jpeg

          九龙杨生九 离线
          九龙杨生九 离线
          九龙杨生
          技术大牛
          编写于 最后由 编辑
          #20

          @mei-li 那种高端货一是用不起,二是别人不给用啊~

          欢迎访问亿量科技官网
          欢迎访问亿量科技油管频道

          mei liM 1 条回复 最后回复
          0
          • M 在线
            M 在线
            mark
            超凡大师
            编写于 最后由 mark 编辑
            #21

            这个你应该尝试下 构建本地的workflow, 别想着一次性, 能做完.

            我曾经也想过 调用一次,就能成功.

            在线API模型, 有AI审查,有时候图片没有违规,他也拒绝回答.

            本地开源模型, 这个倒是很好,但是 模型能力太肉.

            这真是一个两难的选择.

            九龙杨生九 1 条回复 最后回复
            1
            • 九龙杨生九 九龙杨生

              @mei-li 那种高端货一是用不起,二是别人不给用啊~

              mei liM 离线
              mei liM 离线
              mei li
              德高望重 劳动模范
              编写于 最后由 编辑
              #22

              @九龙杨生 我想想还是要想办法用一下,抛开某些原因该学习还是要学习一下。万一你一用发现我靠差距好大,感觉不一定要用起码要测试一下,看看差距多大,起码有个参考吧。

              1 条回复 最后回复
              1
              • M 在线
                M 在线
                mark
                超凡大师
                编写于 最后由 mark 编辑
                #23

                hermes agent ,他定位 就是个人助手, 其实企业级我们一般不会用.
                原因是主要是风险不可控. 公司小,还行.
                好多都是电商公司,就老板和老板娘两个人.

                但是上市公司,一般不敢用这个.
                主要是怕数据泄漏. 个人无所谓了.

                九龙杨生九 1 条回复 最后回复
                1
                • mei liM mei li

                  看来大家都开始用ai来审查ai生成的图片了,我后期想的是工作流打通后可以用解码的方式去抽取生成的视频的某些帧审查人物有无畸变,有没有多根手指那些,开发一个专门的工作流。看了零度解说,图片识别最强的还是claude code 的神话模型(唯一 一个可以准确识别筷子数量的图片模型),你可以去看一下他的视频就在最近几期。3fcf7289-00ba-433c-b3f4-ab48d7c91563-image.jpeg

                  terryT 在线
                  terryT 在线
                  terry
                  超级版主
                  编写于 最后由 编辑
                  #24

                  @mei-li 你为什么给零度打码?我以为是看到岛国片了,我说怎么这么眼熟.....

                  油管:https://www.youtube.com/@抡锤者

                  mei liM 1 条回复 最后回复
                  0
                  • mei liM mei li

                    看来大家都开始用ai来审查ai生成的图片了,我后期想的是工作流打通后可以用解码的方式去抽取生成的视频的某些帧审查人物有无畸变,有没有多根手指那些,开发一个专门的工作流。看了零度解说,图片识别最强的还是claude code 的神话模型(唯一 一个可以准确识别筷子数量的图片模型),你可以去看一下他的视频就在最近几期。3fcf7289-00ba-433c-b3f4-ab48d7c91563-image.jpeg

                    M 在线
                    M 在线
                    mark
                    超凡大师
                    编写于 最后由 mark 编辑
                    #25

                    @mei-li 0度 算是 YT 科技圈的 大V了, 百万的粉丝.

                    我向他投稿过, 就是 hermes agent windows 原生版本. 他没采纳.

                    他做的视频,主要给那些想白嫖的软件技巧,我感觉他技术水平一般.

                    推广什么软件, 自己搞一套多好.

                    等hermes agent 官方出了 Windows 版本,

                    他还还说 这不是第三方的集成的

                    他还不知道, hermes agent Windows 核心代码 ,是我提交给官方的.

                    6136a63c-27a5-470f-885e-c0d31037d836-image.jpeg

                    terryT mei liM 2 条回复 最后回复
                    0
                    • M mark

                      @mei-li 0度 算是 YT 科技圈的 大V了, 百万的粉丝.

                      我向他投稿过, 就是 hermes agent windows 原生版本. 他没采纳.

                      他做的视频,主要给那些想白嫖的软件技巧,我感觉他技术水平一般.

                      推广什么软件, 自己搞一套多好.

                      等hermes agent 官方出了 Windows 版本,

                      他还还说 这不是第三方的集成的

                      他还不知道, hermes agent Windows 核心代码 ,是我提交给官方的.

                      6136a63c-27a5-470f-885e-c0d31037d836-image.jpeg

                      terryT 在线
                      terryT 在线
                      terry
                      超级版主
                      编写于 最后由 编辑
                      #26

                      @mark 赛道不同,你投稿的内容与他的频道定位不同,不采纳很正常。大多数人并不需要掌握太深的知识,这不代表他不懂,只是术业有专攻而已。
                      另外,你可能不知道,做教程类频道自己写不难,因为都是自己的经验,要是接受投稿,尤其是小众领域,他还要理解你的项目,然后实操,需求不大的话,播放数据又不好,所以没采纳正常。
                      还有,大主播邮件多的很,有可能根本没看到。

                      油管:https://www.youtube.com/@抡锤者

                      1 条回复 最后回复
                      1
                      • M mark

                        这个你应该尝试下 构建本地的workflow, 别想着一次性, 能做完.

                        我曾经也想过 调用一次,就能成功.

                        在线API模型, 有AI审查,有时候图片没有违规,他也拒绝回答.

                        本地开源模型, 这个倒是很好,但是 模型能力太肉.

                        这真是一个两难的选择.

                        九龙杨生九 离线
                        九龙杨生九 离线
                        九龙杨生
                        技术大牛
                        编写于 最后由 编辑
                        #27

                        @mark 是的,我现在就是每一段一个hermes技能,丢给他操作然后我来审核结果,结果没问题了再让他做下一段。

                        欢迎访问亿量科技官网
                        欢迎访问亿量科技油管频道

                        1 条回复 最后回复
                        0
                        • M mark

                          hermes agent ,他定位 就是个人助手, 其实企业级我们一般不会用.
                          原因是主要是风险不可控. 公司小,还行.
                          好多都是电商公司,就老板和老板娘两个人.

                          但是上市公司,一般不敢用这个.
                          主要是怕数据泄漏. 个人无所谓了.

                          九龙杨生九 离线
                          九龙杨生九 离线
                          九龙杨生
                          技术大牛
                          编写于 最后由 编辑
                          #28

                          @mark 是的,为了避免风险,现在Hermes能够接触到的数据都要本机和异地云端做好备份。

                          欢迎访问亿量科技官网
                          欢迎访问亿量科技油管频道

                          1 条回复 最后回复
                          0
                          • A 离线
                            A 离线
                            alanwoo
                            编写于 最后由 编辑
                            #29

                            我把qwen3-vl 8b q4當OCR用,還不錯,主要是不佔用太多內存大概6G,qwen3.6-27b q4推理能力更強只是需要更大內存,大概16G以上

                            1 条回复 最后回复
                            0
                            • M mark

                              @mei-li 0度 算是 YT 科技圈的 大V了, 百万的粉丝.

                              我向他投稿过, 就是 hermes agent windows 原生版本. 他没采纳.

                              他做的视频,主要给那些想白嫖的软件技巧,我感觉他技术水平一般.

                              推广什么软件, 自己搞一套多好.

                              等hermes agent 官方出了 Windows 版本,

                              他还还说 这不是第三方的集成的

                              他还不知道, hermes agent Windows 核心代码 ,是我提交给官方的.

                              6136a63c-27a5-470f-885e-c0d31037d836-image.jpeg

                              mei liM 离线
                              mei liM 离线
                              mei li
                              德高望重 劳动模范
                              编写于 最后由 编辑
                              #30

                              @mark 术业有专攻,人家就是抓住了白嫖党心理,这样大概率不是程序员出身,一般是测试,只知道有这样产品不知道怎么来的。

                              M 1 条回复 最后回复
                              0
                              • terryT terry

                                @mei-li 你为什么给零度打码?我以为是看到岛国片了,我说怎么这么眼熟.....

                                mei liM 离线
                                mei liM 离线
                                mei li
                                德高望重 劳动模范
                                编写于 最后由 编辑
                                #31

                                @terry 我也纯属于尊重人家肖像权了,哈哈

                                1 条回复 最后回复
                                0
                                • M 在线
                                  M 在线
                                  mark
                                  超凡大师
                                  编写于 最后由 编辑
                                  #32

                                  网上开源的 成品软件,大多数都是半残废, 真正商用的标准,还得自己开发.
                                  可能小白的要求也低,数据隐私,也没有那么迫切.
                                  IPO上市的公司,对这种软件,都有严格的审计.
                                  宁可花钱,绝对不能冒风险.

                                  1 条回复 最后回复
                                  1
                                  • M 在线
                                    M 在线
                                    mark
                                    超凡大师
                                    编写于 最后由 编辑
                                    #33

                                    我在这个公司. 我对公司买sap,oa,财务软件. 我一开始 很不理解, 这一年就是上千万支出.
                                    他说证券公司要求的, 他们也不愿意花钱, 是必须用.
                                    这就是上市公司的必须支出.

                                    1 条回复 最后回复
                                    0
                                    • mei liM mei li

                                      @mark 术业有专攻,人家就是抓住了白嫖党心理,这样大概率不是程序员出身,一般是测试,只知道有这样产品不知道怎么来的。

                                      M 在线
                                      M 在线
                                      mark
                                      超凡大师
                                      编写于 最后由 mark 编辑
                                      #34

                                      @mei-li 0度 ,这种百万粉丝的 博主, 基本后面都有团队, 团队给他稿子和素材, 他是出镜的那个人.

                                      他一个月 10w的美子 ,进账.

                                      绝对不是他一个人,能做到的.

                                      这种每天日更, 一个人很难的.

                                      mei liM 1 条回复 最后回复
                                      0
                                      • M 在线
                                        M 在线
                                        mark
                                        超凡大师
                                        编写于 最后由 编辑
                                        #35

                                        你简单这样测算把, 假如 千展 3美金的单价.
                                        10万播放, 3000美子.

                                        他那么多视频, 每天都会复利 , 这赚钱 一天 3000美金很容易 .

                                        一个月下来, 10w美子 很轻松.

                                        懂行YT的 ,来看看我的测算对吗?

                                        九龙杨生九 1 条回复 最后回复
                                        0
                                        • M mark

                                          @mei-li 0度 ,这种百万粉丝的 博主, 基本后面都有团队, 团队给他稿子和素材, 他是出镜的那个人.

                                          他一个月 10w的美子 ,进账.

                                          绝对不是他一个人,能做到的.

                                          这种每天日更, 一个人很难的.

                                          mei liM 离线
                                          mei liM 离线
                                          mei li
                                          德高望重 劳动模范
                                          编写于 最后由 编辑
                                          #36

                                          @mark 你这样说也有道理,一方面要有消息,一方面要测试那些软件,另外又要剪辑,还要出稿拍摄。抖音“老张是大佬”应该也是这样类似套路。抓住白嫖党心理专门盯着那种低价消息。

                                          1 条回复 最后回复
                                          0

                                          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                          有了你的建议,这篇帖子会更精彩哦 💗

                                          注册 登录
                                          回复
                                          • 在新帖中回复
                                          登录后回复
                                          • 从旧到新
                                          • 从新到旧
                                          • 最多赞同


                                          • 登录

                                          • 没有帐号? 注册

                                          • 第一个帖子
                                            最后一个帖子
                                          0
                                          • 版块
                                          • 最新
                                          • 标签
                                          • 热门
                                          • 用户
                                          • 群组