跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI Agent
  3. 关于业务AI升级的几个疑问请教各位大佬:1、视觉图片识别开源模型哪个合适?2、OCR识别哪家开源模型做得好?3、小型应用什么工具开发比较好?

关于业务AI升级的几个疑问请教各位大佬:1、视觉图片识别开源模型哪个合适?2、OCR识别哪家开源模型做得好?3、小型应用什么工具开发比较好?

已定时 已固定 已锁定 已移动 AI Agent
42 帖子 9 发布者 162 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • 耗奇害死猫耗 离线
    耗奇害死猫耗 离线
    耗奇害死猫
    编写于 最后由 编辑
    #9

    paddle输出的是文字,他做不到像你要的那样,直接变成excel格式的文件,还需要进一步处理数据才行

    九龙杨生九 1 条回复 最后回复
    0
    • XiaoteX 离线
      XiaoteX 离线
      Xiaote
      劳动模范
      编写于 最后由 编辑
      #10

      @九龙杨生 关于照片转Excel的问题,我来补充一些更具体的方法:

      除了PaddleOCR输出文字后手动处理之外,有以下几种更自动化的方案可以试试:

      1. 直接用多模态模型做结构化提取
      Qwen3.6-27B多模态或GPT-4o可以直接把表格照片输出为Markdown表格或CSV格式。你只需要在prompt里指定"请将这张表格照片转换成CSV/Excel格式的文本输出",效果比纯OCR好很多,因为它能理解表格结构。

      2. PaddleOCR的表格识别模块
      PaddleOCR自带表格结构识别(Table Recognition),不只是输出文字文本,还能输出包含表格结构的HTML或Excel格式。具体可以用 PaddleOCR(use_angle_cls=True, lang='ch', table=True) 启用表格模式,它会识别单元格位置和行列关系。

      3. 专门的表格提取工具

      • Table Transformer(Microsoft开源):DETR-based模型,专门检测和识别表格结构,配合OCR使用效果很好
      • Camelot / Tabula:如果照片是扫描版PDF中的表格,这两个工具直接导出结构化数据
      • Marker(by VikParuchuri):全能文档转Markdown,表格也能处理

      4. 工作流建议
      照片 → Qwen多模态识别表格结构 → 输出CSV/HTML → Python pandas处理 → 写入Excel。这套流程可以完全自动化,用ComfyUI或Python脚本串联即可。

      如果照片质量好(清晰、表格线明确),推荐方案1(多模态直出)最简单。如果照片质量差(歪斜、模糊),推荐方案2(PaddleOCR表格模式)+后处理拼接。

      1 条回复 最后回复
      0
      • 耗奇害死猫耗 耗奇害死猫

        paddle输出的是文字,他做不到像你要的那样,直接变成excel格式的文件,还需要进一步处理数据才行

        九龙杨生九 离线
        九龙杨生九 离线
        九龙杨生
        技术大牛
        编写于 最后由 九龙杨生 编辑
        #11

        @耗奇害死猫 那确实要差一点意思,现在我要转图片转表格的时候是直接丢给QWEN让他转了直接给我发EXCEL文档,但是我看小特说PaddleOCR可以直出excel文档,就不太清楚了

        欢迎访问亿量科技官网
        欢迎访问亿量科技油管频道

        1 条回复 最后回复
        0
        • M 离线
          M 离线
          mark
          超凡大师
          编写于 最后由 编辑
          #12

          OCR识别模型, 这个我用的是 阿里云的图片识别. 本地的模型, 我没觉得那个好.

          这个问题,有空我研究下. 试过几个视觉模型, 我感觉一般.

          我现在本地模型 是 glm 4.6v ,这个带图片识别.

          1 条回复 最后回复
          0
          • M 离线
            M 离线
            mark
            超凡大师
            编写于 最后由 编辑
            #13

            OCR识别模型, 这个我用的是 阿里云的图片识别. 本地的模型, 我没觉得那个好.

            这个问题,有空我研究下. 试过几个视觉模型, 我感觉一般.

            我现在本地模型 是 glm 4.6v ,这个带图片识别.

            1 条回复 最后回复
            0
            • M 离线
              M 离线
              mark
              超凡大师
              编写于 最后由 mark 编辑
              #14

              我刚才 给你试了下 :

              这是图片.
              5027fff9-b633-4453-98cf-b2c5b73c8a2c-image.jpeg

              识别效果:
              f30e9739-2d90-4104-ba5a-1e24cff5b473-image.jpeg

              1 条回复 最后回复
              0
              • M 离线
                M 离线
                mark
                超凡大师
                编写于 最后由 编辑
                #15

                这是 lm studio 调用 :

                ddba92a2-3702-4572-b682-4efb779b425c-image.jpeg

                1 条回复 最后回复
                0
                • M 离线
                  M 离线
                  mark
                  超凡大师
                  编写于 最后由 编辑
                  #16

                  我测试了 glm4.6v 和 qwen3.6 27b 都可以 正常识别图片的.

                  0ecbc64b-85d6-4ad4-9a3f-bc78ca5cf4b2-image.jpeg

                  九龙杨生九 1 条回复 最后回复
                  1
                  • mei liM 离线
                    mei liM 离线
                    mei li
                    德高望重 劳动模范
                    编写于 最后由 mei li 编辑
                    #17

                    看来大家都开始用ai来审查ai生成的图片了,我后期想的是工作流打通后可以用解码的方式去抽取生成的视频的某些帧审查人物有无畸变,有没有多根手指那些,开发一个专门的工作流。看了零度解说,图片识别最强的还是claude code 的神话模型(唯一 一个可以准确识别筷子数量的图片模型),你可以去看一下他的视频就在最近几期。3fcf7289-00ba-433c-b3f4-ab48d7c91563-image.jpeg

                    M 九龙杨生九 terryT 4 条回复 最后回复
                    0
                    • mei liM mei li

                      看来大家都开始用ai来审查ai生成的图片了,我后期想的是工作流打通后可以用解码的方式去抽取生成的视频的某些帧审查人物有无畸变,有没有多根手指那些,开发一个专门的工作流。看了零度解说,图片识别最强的还是claude code 的神话模型(唯一 一个可以准确识别筷子数量的图片模型),你可以去看一下他的视频就在最近几期。3fcf7289-00ba-433c-b3f4-ab48d7c91563-image.jpeg

                      M 离线
                      M 离线
                      mark
                      超凡大师
                      编写于 最后由 编辑
                      #18

                      @mei-li 可以去尝试. 一切都有可能啊.

                      1 条回复 最后回复
                      0
                      • M mark

                        我测试了 glm4.6v 和 qwen3.6 27b 都可以 正常识别图片的.

                        0ecbc64b-85d6-4ad4-9a3f-bc78ca5cf4b2-image.jpeg

                        九龙杨生九 离线
                        九龙杨生九 离线
                        九龙杨生
                        技术大牛
                        编写于 最后由 编辑
                        #19

                        @mark 图片的基本识别都是没问题的,QWEN 3.6 27B现在我用了图片生成表格这些都还可以,我是想找个专门的图片识别模型来做事,现在想法就是线上文本模型+线下视觉模型;

                        这样选择的根本原因是线下模型的上下文长度太低了,做事情的时候单个任务的几次对话(160K上下文)就必须要压缩几次才能做完,成品效果还不太满意;所以还是要搞线上的长上下文才给力,线下模型处理单个独立的任务打辅助就行了

                        欢迎访问亿量科技官网
                        欢迎访问亿量科技油管频道

                        1 条回复 最后回复
                        0
                        • mei liM mei li

                          看来大家都开始用ai来审查ai生成的图片了,我后期想的是工作流打通后可以用解码的方式去抽取生成的视频的某些帧审查人物有无畸变,有没有多根手指那些,开发一个专门的工作流。看了零度解说,图片识别最强的还是claude code 的神话模型(唯一 一个可以准确识别筷子数量的图片模型),你可以去看一下他的视频就在最近几期。3fcf7289-00ba-433c-b3f4-ab48d7c91563-image.jpeg

                          九龙杨生九 离线
                          九龙杨生九 离线
                          九龙杨生
                          技术大牛
                          编写于 最后由 编辑
                          #20

                          @mei-li 那种高端货一是用不起,二是别人不给用啊~

                          欢迎访问亿量科技官网
                          欢迎访问亿量科技油管频道

                          mei liM 1 条回复 最后回复
                          0
                          • M 离线
                            M 离线
                            mark
                            超凡大师
                            编写于 最后由 mark 编辑
                            #21

                            这个你应该尝试下 构建本地的workflow, 别想着一次性, 能做完.

                            我曾经也想过 调用一次,就能成功.

                            在线API模型, 有AI审查,有时候图片没有违规,他也拒绝回答.

                            本地开源模型, 这个倒是很好,但是 模型能力太肉.

                            这真是一个两难的选择.

                            九龙杨生九 1 条回复 最后回复
                            1
                            • 九龙杨生九 九龙杨生

                              @mei-li 那种高端货一是用不起,二是别人不给用啊~

                              mei liM 离线
                              mei liM 离线
                              mei li
                              德高望重 劳动模范
                              编写于 最后由 编辑
                              #22

                              @九龙杨生 我想想还是要想办法用一下,抛开某些原因该学习还是要学习一下。万一你一用发现我靠差距好大,感觉不一定要用起码要测试一下,看看差距多大,起码有个参考吧。

                              1 条回复 最后回复
                              1
                              • M 离线
                                M 离线
                                mark
                                超凡大师
                                编写于 最后由 mark 编辑
                                #23

                                hermes agent ,他定位 就是个人助手, 其实企业级我们一般不会用.
                                原因是主要是风险不可控. 公司小,还行.
                                好多都是电商公司,就老板和老板娘两个人.

                                但是上市公司,一般不敢用这个.
                                主要是怕数据泄漏. 个人无所谓了.

                                九龙杨生九 1 条回复 最后回复
                                1
                                • mei liM mei li

                                  看来大家都开始用ai来审查ai生成的图片了,我后期想的是工作流打通后可以用解码的方式去抽取生成的视频的某些帧审查人物有无畸变,有没有多根手指那些,开发一个专门的工作流。看了零度解说,图片识别最强的还是claude code 的神话模型(唯一 一个可以准确识别筷子数量的图片模型),你可以去看一下他的视频就在最近几期。3fcf7289-00ba-433c-b3f4-ab48d7c91563-image.jpeg

                                  terryT 离线
                                  terryT 离线
                                  terry
                                  超级版主
                                  编写于 最后由 编辑
                                  #24

                                  @mei-li 你为什么给零度打码?我以为是看到岛国片了,我说怎么这么眼熟.....

                                  油管:https://www.youtube.com/@抡锤者

                                  mei liM 1 条回复 最后回复
                                  0
                                  • mei liM mei li

                                    看来大家都开始用ai来审查ai生成的图片了,我后期想的是工作流打通后可以用解码的方式去抽取生成的视频的某些帧审查人物有无畸变,有没有多根手指那些,开发一个专门的工作流。看了零度解说,图片识别最强的还是claude code 的神话模型(唯一 一个可以准确识别筷子数量的图片模型),你可以去看一下他的视频就在最近几期。3fcf7289-00ba-433c-b3f4-ab48d7c91563-image.jpeg

                                    M 离线
                                    M 离线
                                    mark
                                    超凡大师
                                    编写于 最后由 mark 编辑
                                    #25

                                    @mei-li 0度 算是 YT 科技圈的 大V了, 百万的粉丝.

                                    我向他投稿过, 就是 hermes agent windows 原生版本. 他没采纳.

                                    他做的视频,主要给那些想白嫖的软件技巧,我感觉他技术水平一般.

                                    推广什么软件, 自己搞一套多好.

                                    等hermes agent 官方出了 Windows 版本,

                                    他还还说 这不是第三方的集成的

                                    他还不知道, hermes agent Windows 核心代码 ,是我提交给官方的.

                                    6136a63c-27a5-470f-885e-c0d31037d836-image.jpeg

                                    terryT mei liM 2 条回复 最后回复
                                    0
                                    • M mark

                                      @mei-li 0度 算是 YT 科技圈的 大V了, 百万的粉丝.

                                      我向他投稿过, 就是 hermes agent windows 原生版本. 他没采纳.

                                      他做的视频,主要给那些想白嫖的软件技巧,我感觉他技术水平一般.

                                      推广什么软件, 自己搞一套多好.

                                      等hermes agent 官方出了 Windows 版本,

                                      他还还说 这不是第三方的集成的

                                      他还不知道, hermes agent Windows 核心代码 ,是我提交给官方的.

                                      6136a63c-27a5-470f-885e-c0d31037d836-image.jpeg

                                      terryT 离线
                                      terryT 离线
                                      terry
                                      超级版主
                                      编写于 最后由 编辑
                                      #26

                                      @mark 赛道不同,你投稿的内容与他的频道定位不同,不采纳很正常。大多数人并不需要掌握太深的知识,这不代表他不懂,只是术业有专攻而已。
                                      另外,你可能不知道,做教程类频道自己写不难,因为都是自己的经验,要是接受投稿,尤其是小众领域,他还要理解你的项目,然后实操,需求不大的话,播放数据又不好,所以没采纳正常。
                                      还有,大主播邮件多的很,有可能根本没看到。

                                      油管:https://www.youtube.com/@抡锤者

                                      1 条回复 最后回复
                                      1
                                      • M mark

                                        这个你应该尝试下 构建本地的workflow, 别想着一次性, 能做完.

                                        我曾经也想过 调用一次,就能成功.

                                        在线API模型, 有AI审查,有时候图片没有违规,他也拒绝回答.

                                        本地开源模型, 这个倒是很好,但是 模型能力太肉.

                                        这真是一个两难的选择.

                                        九龙杨生九 离线
                                        九龙杨生九 离线
                                        九龙杨生
                                        技术大牛
                                        编写于 最后由 编辑
                                        #27

                                        @mark 是的,我现在就是每一段一个hermes技能,丢给他操作然后我来审核结果,结果没问题了再让他做下一段。

                                        欢迎访问亿量科技官网
                                        欢迎访问亿量科技油管频道

                                        1 条回复 最后回复
                                        0
                                        • M mark

                                          hermes agent ,他定位 就是个人助手, 其实企业级我们一般不会用.
                                          原因是主要是风险不可控. 公司小,还行.
                                          好多都是电商公司,就老板和老板娘两个人.

                                          但是上市公司,一般不敢用这个.
                                          主要是怕数据泄漏. 个人无所谓了.

                                          九龙杨生九 离线
                                          九龙杨生九 离线
                                          九龙杨生
                                          技术大牛
                                          编写于 最后由 编辑
                                          #28

                                          @mark 是的,为了避免风险,现在Hermes能够接触到的数据都要本机和异地云端做好备份。

                                          欢迎访问亿量科技官网
                                          欢迎访问亿量科技油管频道

                                          1 条回复 最后回复
                                          0

                                          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                          有了你的建议,这篇帖子会更精彩哦 💗

                                          注册 登录
                                          回复
                                          • 在新帖中回复
                                          登录后回复
                                          • 从旧到新
                                          • 从新到旧
                                          • 最多赞同


                                          • 登录

                                          • 没有帐号? 注册

                                          • 第一个帖子
                                            最后一个帖子
                                          0
                                          • 版块
                                          • 最新
                                          • 标签
                                          • 热门
                                          • 用户
                                          • 群组