关于业务AI升级的几个疑问请教各位大佬：1、视觉图片识别开源模型哪个合适？2、OCR识别哪家开源模型做得好？3、小型应用什么工具开发比较好？

耗奇害死猫

@九龙杨生说:

2、在实际业务过程当中会涉及到大量的客户材料和申报资料以及资金流水照片，为了能够更好的进行自动化管理，想要找个OCR识别模型，性价比高的在线模型或者性能较强的开源模型都是可以的，各位大佬有没有推荐的？

我用的paddle ocr vc1.6 还挺好用，我主要是拿来处理pdf和图片，paddle有个问题，只能用N卡

九龙杨生

@耗奇害死猫请问这个处理EXCEL的照片如何呢？照片转EXCEL文档

耗奇害死猫

paddle输出的是文字，他做不到像你要的那样，直接变成excel格式的文件，还需要进一步处理数据才行

Xiaote

@九龙杨生关于照片转Excel的问题，我来补充一些更具体的方法：

除了PaddleOCR输出文字后手动处理之外，有以下几种更自动化的方案可以试试：

1. 直接用多模态模型做结构化提取
Qwen3.6-27B多模态或GPT-4o可以直接把表格照片输出为Markdown表格或CSV格式。你只需要在prompt里指定"请将这张表格照片转换成CSV/Excel格式的文本输出"，效果比纯OCR好很多，因为它能理解表格结构。

2. PaddleOCR的表格识别模块
PaddleOCR自带表格结构识别（Table Recognition），不只是输出文字文本，还能输出包含表格结构的HTML或Excel格式。具体可以用 PaddleOCR(use_angle_cls=True, lang='ch', table=True) 启用表格模式，它会识别单元格位置和行列关系。

3. 专门的表格提取工具

Table Transformer（Microsoft开源）：DETR-based模型，专门检测和识别表格结构，配合OCR使用效果很好
Camelot / Tabula：如果照片是扫描版PDF中的表格，这两个工具直接导出结构化数据
Marker（by VikParuchuri）：全能文档转Markdown，表格也能处理

4. 工作流建议
照片 → Qwen多模态识别表格结构 → 输出CSV/HTML → Python pandas处理 → 写入Excel。这套流程可以完全自动化，用ComfyUI或Python脚本串联即可。

如果照片质量好（清晰、表格线明确），推荐方案1（多模态直出）最简单。如果照片质量差（歪斜、模糊），推荐方案2（PaddleOCR表格模式）+后处理拼接。

九龙杨生

@耗奇害死猫那确实要差一点意思，现在我要转图片转表格的时候是直接丢给QWEN让他转了直接给我发EXCEL文档，但是我看小特说PaddleOCR可以直出excel文档，就不太清楚了

mark

OCR识别模型, 这个我用的是阿里云的图片识别. 本地的模型, 我没觉得那个好.

这个问题,有空我研究下. 试过几个视觉模型, 我感觉一般.

我现在本地模型是 glm 4.6v ,这个带图片识别.

mark

OCR识别模型, 这个我用的是阿里云的图片识别. 本地的模型, 我没觉得那个好.

这个问题,有空我研究下. 试过几个视觉模型, 我感觉一般.

我现在本地模型是 glm 4.6v ,这个带图片识别.

mark

我刚才给你试了下 :

这是图片.

识别效果:

mark

这是 lm studio 调用 :

mark

我测试了 glm4.6v 和 qwen3.6 27b 都可以正常识别图片的.

mei li

看来大家都开始用ai来审查ai生成的图片了，我后期想的是工作流打通后可以用解码的方式去抽取生成的视频的某些帧审查人物有无畸变，有没有多根手指那些，开发一个专门的工作流。看了零度解说，图片识别最强的还是claude code 的神话模型（唯一一个可以准确识别筷子数量的图片模型），你可以去看一下他的视频就在最近几期。

mark

@mei-li 可以去尝试. 一切都有可能啊.

九龙杨生

@mark 图片的基本识别都是没问题的，QWEN 3.6 27B现在我用了图片生成表格这些都还可以，我是想找个专门的图片识别模型来做事，现在想法就是线上文本模型+线下视觉模型；

这样选择的根本原因是线下模型的上下文长度太低了，做事情的时候单个任务的几次对话（160K上下文）就必须要压缩几次才能做完，成品效果还不太满意；所以还是要搞线上的长上下文才给力，线下模型处理单个独立的任务打辅助就行了

九龙杨生

@mei-li 那种高端货一是用不起，二是别人不给用啊~

mark

这个你应该尝试下构建本地的workflow, 别想着一次性, 能做完.

我曾经也想过调用一次,就能成功.

在线API模型, 有AI审查,有时候图片没有违规,他也拒绝回答.

本地开源模型, 这个倒是很好,但是模型能力太肉.

这真是一个两难的选择.

mei li

@九龙杨生我想想还是要想办法用一下，抛开某些原因该学习还是要学习一下。万一你一用发现我靠差距好大，感觉不一定要用起码要测试一下，看看差距多大，起码有个参考吧。

mark

hermes agent ,他定位就是个人助手, 其实企业级我们一般不会用.
原因是主要是风险不可控. 公司小,还行.
好多都是电商公司,就老板和老板娘两个人.

但是上市公司,一般不敢用这个.
主要是怕数据泄漏. 个人无所谓了.

terry

@mei-li 你为什么给零度打码？我以为是看到岛国片了，我说怎么这么眼熟.....

mark

@mei-li 0度算是 YT 科技圈的大V了, 百万的粉丝.

我向他投稿过, 就是 hermes agent windows 原生版本. 他没采纳.

他做的视频,主要给那些想白嫖的软件技巧,我感觉他技术水平一般.

推广什么软件, 自己搞一套多好.

等hermes agent 官方出了 Windows 版本,

他还还说这不是第三方的集成的

他还不知道, hermes agent Windows 核心代码 ,是我提交给官方的.

terry

@mark 赛道不同，你投稿的内容与他的频道定位不同，不采纳很正常。大多数人并不需要掌握太深的知识，这不代表他不懂，只是术业有专攻而已。
另外，你可能不知道，做教程类频道自己写不难，因为都是自己的经验，要是接受投稿，尤其是小众领域，他还要理解你的项目，然后实操，需求不大的话，播放数据又不好，所以没采纳正常。
还有，大主播邮件多的很，有可能根本没看到。

抡锤者

关于业务AI升级的几个疑问请教各位大佬：1、视觉图片识别开源模型哪个合适？2、OCR识别哪家开源模型做得好？3、小型应用什么工具开发比较好？