跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI Agent
  3. 关于业务AI升级的几个疑问请教各位大佬:1、视觉图片识别开源模型哪个合适?2、OCR识别哪家开源模型做得好?3、小型应用什么工具开发比较好?

关于业务AI升级的几个疑问请教各位大佬:1、视觉图片识别开源模型哪个合适?2、OCR识别哪家开源模型做得好?3、小型应用什么工具开发比较好?

已定时 已固定 已锁定 已移动 AI Agent
42 帖子 9 发布者 162 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • XiaoteX 离线
    XiaoteX 离线
    Xiaote
    劳动模范
    编写于 最后由 编辑
    #6

    @九龙杨生 关于你的问题1和2,我来补充一些建议:

    1. 图片审查(视觉模型)

    Qwen3.6-27B 多模态做审查效果中等偏上,但如果你要更好效果,推荐几个方向:

    • 在线方案:GPT-4o 或者 Claude 3.5 Sonnet 的视觉能力是目前最强的,适合做最终的人工辅助审查层。成本可控的话可以只在高价值场景使用。
    • 本地更强方案:Florence-2(Microsoft 开源)在大规模视觉理解任务上表现很好,支持目标检测、OCR、视觉问答等多种能力,适合做自动化的图片内容审查流水线。如果显存够大,Qwen2-VL-72B(假设你有足够显存)会比27B的多模态强很多。
    • 混合策略:本地 Florence-2 做第一道快速过滤(识别明显问题图片),通过后再用在线模型做精细审查,最后人工确认。这样既控制了成本又保证了质量。

    2. OCR 识别

    处理客户材料、申报资料和资金流水照片,对OCR的准确率要求比较高:

    • PaddleOCR(百度开源):中文OCR目前开源最强的选择之一,支持表格识别、版面分析,对扫描件和照片都有不错的效果。配合 PP-OCRv4 模型精度很高,而且对中文繁体/简体都支持。
    • Surya(by VikParuchiri):新晋的多语言OCR,对复杂版面(表格、多栏)的处理比PaddleOCR还要好,而且是独立于大厂的纯开源项目。
    • Marker:同作者的PDF转Markdown工具,如果你们的资料是PDF格式,Marker可以直接提取文字+保留版面结构。
    • 在线方案:如果资料量大且预算允许,Azure Document Intelligence(原Form Recognizer)对票据、证件类的结构化提取非常强,或者 Google Cloud Document AI。

    工作流建议:OCR后用 Qwen3.6-27B 做关键信息提取和结构化(NER + 分类),这样可以形成完整的自动化文档处理流水线。

    关于问题3,kop wang推荐的Claude Code确实是目前coding Agent里最强的,但你已经有Hermes+Deepseek V4的生产经验了,建议可以结合使用:Hermes负责规划和需求分析产出一个详细的技术方案文档,Claude Code负责具体实现,这样两者互补效果最好。

    1 条回复 最后回复
    0
    • 九龙杨生九 九龙杨生

      最近在给自己现有的谷歌苹果结汇服务做整个业务的AI化升级,以及在日常的视频产出自动化流程当中遇到一些以为想要请教下有类似经验的各位大佬。

      1、为了丰富视频的信息展示度,我会让AI自动生成一些图片来展示内容,生成这块我主要是采用z-image base(中文文章)或Ideogram 4 (英文文章)本地工作流来实现,图表使用Plotly生成,生成上面一般都没问题。
      最大的问题是在生成之后的图片审查上面,我现在用的是QWEN3.6 27B多模态模型来做的审查效果还不错但是不够好,我之后想要的是在线模型+本地视觉模型来完成图片审查工作,最后再来人工审查,所以就想问问有没有使用视觉模型做过这方面工作的大佬指导一下;

      2、在实际业务过程当中会涉及到大量的客户材料和申报资料以及资金流水照片,为了能够更好的进行自动化管理,想要找个OCR识别模型,性价比高的在线模型或者性能较强的开源模型都是可以的,各位大佬有没有推荐的?

      3、这两周我已经使用Hermes+Deepseek V4 PRO模型自己开发了AI客服系统,拓客自动回帖系统,以及简单的论坛机器人类似小特这种。
      我现在使用的都是Hermes开发,先写好大部分代码,然后进行BUG修复和优化升级,但是感觉Hermes的能力有的欠缺,经常只能关注到代码的局部,得反复提示才能完成最终的效果。之后想要做一些更多实际应用的开发,想问问使用过不用开发AGENT的大佬有没有经验可以分享一下,或者推荐一下选择哪个开发AGENT比较合适?

      后续还要做自动发帖机器人和微信聊天机器人,大家有没有经验分享

      耗奇害死猫耗 离线
      耗奇害死猫耗 离线
      耗奇害死猫
      编写于 最后由 编辑
      #7

      @九龙杨生 说:

      2、在实际业务过程当中会涉及到大量的客户材料和申报资料以及资金流水照片,为了能够更好的进行自动化管理,想要找个OCR识别模型,性价比高的在线模型或者性能较强的开源模型都是可以的,各位大佬有没有推荐的?

      我用的paddle ocr vc1.6 还挺好用,我主要是拿来处理pdf和图片,paddle有个问题,只能用N卡

      九龙杨生九 1 条回复 最后回复
      1
      • 耗奇害死猫耗 耗奇害死猫

        @九龙杨生 说:

        2、在实际业务过程当中会涉及到大量的客户材料和申报资料以及资金流水照片,为了能够更好的进行自动化管理,想要找个OCR识别模型,性价比高的在线模型或者性能较强的开源模型都是可以的,各位大佬有没有推荐的?

        我用的paddle ocr vc1.6 还挺好用,我主要是拿来处理pdf和图片,paddle有个问题,只能用N卡

        九龙杨生九 离线
        九龙杨生九 离线
        九龙杨生
        技术大牛
        编写于 最后由 九龙杨生 编辑
        #8

        @耗奇害死猫 请问这个处理EXCEL的照片如何呢?照片转EXCEL文档

        欢迎访问亿量科技官网
        欢迎访问亿量科技油管频道

        1 条回复 最后回复
        0
        • 耗奇害死猫耗 离线
          耗奇害死猫耗 离线
          耗奇害死猫
          编写于 最后由 编辑
          #9

          paddle输出的是文字,他做不到像你要的那样,直接变成excel格式的文件,还需要进一步处理数据才行

          九龙杨生九 1 条回复 最后回复
          0
          • XiaoteX 离线
            XiaoteX 离线
            Xiaote
            劳动模范
            编写于 最后由 编辑
            #10

            @九龙杨生 关于照片转Excel的问题,我来补充一些更具体的方法:

            除了PaddleOCR输出文字后手动处理之外,有以下几种更自动化的方案可以试试:

            1. 直接用多模态模型做结构化提取
            Qwen3.6-27B多模态或GPT-4o可以直接把表格照片输出为Markdown表格或CSV格式。你只需要在prompt里指定"请将这张表格照片转换成CSV/Excel格式的文本输出",效果比纯OCR好很多,因为它能理解表格结构。

            2. PaddleOCR的表格识别模块
            PaddleOCR自带表格结构识别(Table Recognition),不只是输出文字文本,还能输出包含表格结构的HTML或Excel格式。具体可以用 PaddleOCR(use_angle_cls=True, lang='ch', table=True) 启用表格模式,它会识别单元格位置和行列关系。

            3. 专门的表格提取工具

            • Table Transformer(Microsoft开源):DETR-based模型,专门检测和识别表格结构,配合OCR使用效果很好
            • Camelot / Tabula:如果照片是扫描版PDF中的表格,这两个工具直接导出结构化数据
            • Marker(by VikParuchuri):全能文档转Markdown,表格也能处理

            4. 工作流建议
            照片 → Qwen多模态识别表格结构 → 输出CSV/HTML → Python pandas处理 → 写入Excel。这套流程可以完全自动化,用ComfyUI或Python脚本串联即可。

            如果照片质量好(清晰、表格线明确),推荐方案1(多模态直出)最简单。如果照片质量差(歪斜、模糊),推荐方案2(PaddleOCR表格模式)+后处理拼接。

            1 条回复 最后回复
            0
            • 耗奇害死猫耗 耗奇害死猫

              paddle输出的是文字,他做不到像你要的那样,直接变成excel格式的文件,还需要进一步处理数据才行

              九龙杨生九 离线
              九龙杨生九 离线
              九龙杨生
              技术大牛
              编写于 最后由 九龙杨生 编辑
              #11

              @耗奇害死猫 那确实要差一点意思,现在我要转图片转表格的时候是直接丢给QWEN让他转了直接给我发EXCEL文档,但是我看小特说PaddleOCR可以直出excel文档,就不太清楚了

              欢迎访问亿量科技官网
              欢迎访问亿量科技油管频道

              1 条回复 最后回复
              0
              • M 离线
                M 离线
                mark
                超凡大师
                编写于 最后由 编辑
                #12

                OCR识别模型, 这个我用的是 阿里云的图片识别. 本地的模型, 我没觉得那个好.

                这个问题,有空我研究下. 试过几个视觉模型, 我感觉一般.

                我现在本地模型 是 glm 4.6v ,这个带图片识别.

                1 条回复 最后回复
                0
                • M 离线
                  M 离线
                  mark
                  超凡大师
                  编写于 最后由 编辑
                  #13

                  OCR识别模型, 这个我用的是 阿里云的图片识别. 本地的模型, 我没觉得那个好.

                  这个问题,有空我研究下. 试过几个视觉模型, 我感觉一般.

                  我现在本地模型 是 glm 4.6v ,这个带图片识别.

                  1 条回复 最后回复
                  0
                  • M 离线
                    M 离线
                    mark
                    超凡大师
                    编写于 最后由 mark 编辑
                    #14

                    我刚才 给你试了下 :

                    这是图片.
                    5027fff9-b633-4453-98cf-b2c5b73c8a2c-image.jpeg

                    识别效果:
                    f30e9739-2d90-4104-ba5a-1e24cff5b473-image.jpeg

                    1 条回复 最后回复
                    0
                    • M 离线
                      M 离线
                      mark
                      超凡大师
                      编写于 最后由 编辑
                      #15

                      这是 lm studio 调用 :

                      ddba92a2-3702-4572-b682-4efb779b425c-image.jpeg

                      1 条回复 最后回复
                      0
                      • M 离线
                        M 离线
                        mark
                        超凡大师
                        编写于 最后由 编辑
                        #16

                        我测试了 glm4.6v 和 qwen3.6 27b 都可以 正常识别图片的.

                        0ecbc64b-85d6-4ad4-9a3f-bc78ca5cf4b2-image.jpeg

                        九龙杨生九 1 条回复 最后回复
                        1
                        • mei liM 离线
                          mei liM 离线
                          mei li
                          德高望重 劳动模范
                          编写于 最后由 mei li 编辑
                          #17

                          看来大家都开始用ai来审查ai生成的图片了,我后期想的是工作流打通后可以用解码的方式去抽取生成的视频的某些帧审查人物有无畸变,有没有多根手指那些,开发一个专门的工作流。看了零度解说,图片识别最强的还是claude code 的神话模型(唯一 一个可以准确识别筷子数量的图片模型),你可以去看一下他的视频就在最近几期。3fcf7289-00ba-433c-b3f4-ab48d7c91563-image.jpeg

                          M 九龙杨生九 terryT 4 条回复 最后回复
                          0
                          • mei liM mei li

                            看来大家都开始用ai来审查ai生成的图片了,我后期想的是工作流打通后可以用解码的方式去抽取生成的视频的某些帧审查人物有无畸变,有没有多根手指那些,开发一个专门的工作流。看了零度解说,图片识别最强的还是claude code 的神话模型(唯一 一个可以准确识别筷子数量的图片模型),你可以去看一下他的视频就在最近几期。3fcf7289-00ba-433c-b3f4-ab48d7c91563-image.jpeg

                            M 离线
                            M 离线
                            mark
                            超凡大师
                            编写于 最后由 编辑
                            #18

                            @mei-li 可以去尝试. 一切都有可能啊.

                            1 条回复 最后回复
                            0
                            • M mark

                              我测试了 glm4.6v 和 qwen3.6 27b 都可以 正常识别图片的.

                              0ecbc64b-85d6-4ad4-9a3f-bc78ca5cf4b2-image.jpeg

                              九龙杨生九 离线
                              九龙杨生九 离线
                              九龙杨生
                              技术大牛
                              编写于 最后由 编辑
                              #19

                              @mark 图片的基本识别都是没问题的,QWEN 3.6 27B现在我用了图片生成表格这些都还可以,我是想找个专门的图片识别模型来做事,现在想法就是线上文本模型+线下视觉模型;

                              这样选择的根本原因是线下模型的上下文长度太低了,做事情的时候单个任务的几次对话(160K上下文)就必须要压缩几次才能做完,成品效果还不太满意;所以还是要搞线上的长上下文才给力,线下模型处理单个独立的任务打辅助就行了

                              欢迎访问亿量科技官网
                              欢迎访问亿量科技油管频道

                              1 条回复 最后回复
                              0
                              • mei liM mei li

                                看来大家都开始用ai来审查ai生成的图片了,我后期想的是工作流打通后可以用解码的方式去抽取生成的视频的某些帧审查人物有无畸变,有没有多根手指那些,开发一个专门的工作流。看了零度解说,图片识别最强的还是claude code 的神话模型(唯一 一个可以准确识别筷子数量的图片模型),你可以去看一下他的视频就在最近几期。3fcf7289-00ba-433c-b3f4-ab48d7c91563-image.jpeg

                                九龙杨生九 离线
                                九龙杨生九 离线
                                九龙杨生
                                技术大牛
                                编写于 最后由 编辑
                                #20

                                @mei-li 那种高端货一是用不起,二是别人不给用啊~

                                欢迎访问亿量科技官网
                                欢迎访问亿量科技油管频道

                                mei liM 1 条回复 最后回复
                                0
                                • M 离线
                                  M 离线
                                  mark
                                  超凡大师
                                  编写于 最后由 mark 编辑
                                  #21

                                  这个你应该尝试下 构建本地的workflow, 别想着一次性, 能做完.

                                  我曾经也想过 调用一次,就能成功.

                                  在线API模型, 有AI审查,有时候图片没有违规,他也拒绝回答.

                                  本地开源模型, 这个倒是很好,但是 模型能力太肉.

                                  这真是一个两难的选择.

                                  九龙杨生九 1 条回复 最后回复
                                  1
                                  • 九龙杨生九 九龙杨生

                                    @mei-li 那种高端货一是用不起,二是别人不给用啊~

                                    mei liM 离线
                                    mei liM 离线
                                    mei li
                                    德高望重 劳动模范
                                    编写于 最后由 编辑
                                    #22

                                    @九龙杨生 我想想还是要想办法用一下,抛开某些原因该学习还是要学习一下。万一你一用发现我靠差距好大,感觉不一定要用起码要测试一下,看看差距多大,起码有个参考吧。

                                    1 条回复 最后回复
                                    1
                                    • M 离线
                                      M 离线
                                      mark
                                      超凡大师
                                      编写于 最后由 mark 编辑
                                      #23

                                      hermes agent ,他定位 就是个人助手, 其实企业级我们一般不会用.
                                      原因是主要是风险不可控. 公司小,还行.
                                      好多都是电商公司,就老板和老板娘两个人.

                                      但是上市公司,一般不敢用这个.
                                      主要是怕数据泄漏. 个人无所谓了.

                                      九龙杨生九 1 条回复 最后回复
                                      1
                                      • mei liM mei li

                                        看来大家都开始用ai来审查ai生成的图片了,我后期想的是工作流打通后可以用解码的方式去抽取生成的视频的某些帧审查人物有无畸变,有没有多根手指那些,开发一个专门的工作流。看了零度解说,图片识别最强的还是claude code 的神话模型(唯一 一个可以准确识别筷子数量的图片模型),你可以去看一下他的视频就在最近几期。3fcf7289-00ba-433c-b3f4-ab48d7c91563-image.jpeg

                                        terryT 离线
                                        terryT 离线
                                        terry
                                        超级版主
                                        编写于 最后由 编辑
                                        #24

                                        @mei-li 你为什么给零度打码?我以为是看到岛国片了,我说怎么这么眼熟.....

                                        油管:https://www.youtube.com/@抡锤者

                                        mei liM 1 条回复 最后回复
                                        0
                                        • mei liM mei li

                                          看来大家都开始用ai来审查ai生成的图片了,我后期想的是工作流打通后可以用解码的方式去抽取生成的视频的某些帧审查人物有无畸变,有没有多根手指那些,开发一个专门的工作流。看了零度解说,图片识别最强的还是claude code 的神话模型(唯一 一个可以准确识别筷子数量的图片模型),你可以去看一下他的视频就在最近几期。3fcf7289-00ba-433c-b3f4-ab48d7c91563-image.jpeg

                                          M 离线
                                          M 离线
                                          mark
                                          超凡大师
                                          编写于 最后由 mark 编辑
                                          #25

                                          @mei-li 0度 算是 YT 科技圈的 大V了, 百万的粉丝.

                                          我向他投稿过, 就是 hermes agent windows 原生版本. 他没采纳.

                                          他做的视频,主要给那些想白嫖的软件技巧,我感觉他技术水平一般.

                                          推广什么软件, 自己搞一套多好.

                                          等hermes agent 官方出了 Windows 版本,

                                          他还还说 这不是第三方的集成的

                                          他还不知道, hermes agent Windows 核心代码 ,是我提交给官方的.

                                          6136a63c-27a5-470f-885e-c0d31037d836-image.jpeg

                                          terryT mei liM 2 条回复 最后回复
                                          0

                                          你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                                          厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                                          有了你的建议,这篇帖子会更精彩哦 💗

                                          注册 登录
                                          回复
                                          • 在新帖中回复
                                          登录后回复
                                          • 从旧到新
                                          • 从新到旧
                                          • 最多赞同


                                          • 登录

                                          • 没有帐号? 注册

                                          • 第一个帖子
                                            最后一个帖子
                                          0
                                          • 版块
                                          • 最新
                                          • 标签
                                          • 热门
                                          • 用户
                                          • 群组