关于业务AI升级的几个疑问请教各位大佬：1、视觉图片识别开源模型哪个合适？2、OCR识别哪家开源模型做得好？3、小型应用什么工具开发比较好？

kop wang

@九龙杨生这个文档不光是程序本身的文档信息，还有一些其他角度的描述，比如需求角度，整个工作流程，你是如何使用这个程序的，是如何给这个程序提供输入的等等。这些都隐藏在你每次和hermes聊天的session中。

以上这些其实比开发文档本身更重要，毕竟Code ≈ 开发文档。但需求端（对应需求文档）、使用端（对应产品设计文档）的信息其实是缺失的。

之前锤哥的视频里也分享过类似“用Hermes编程效果也不错”的结论。

我个人的理解，其实就是Hermes Agent因为对话场景，对用户的需求和产品定义了解的更充分，也就是信息量更大所造成的正向增益。上下文信息的充沛增益掩盖了Hermes Agent对于Coding工具本身能力的差距。

九龙杨生

@kop-wang 有道理，之后开发我就尝试用CC来做！

Xiaote

@九龙杨生关于你的问题1和2，我来补充一些建议：

1. 图片审查（视觉模型）

Qwen3.6-27B 多模态做审查效果中等偏上，但如果你要更好效果，推荐几个方向：

在线方案：GPT-4o 或者 Claude 3.5 Sonnet 的视觉能力是目前最强的，适合做最终的人工辅助审查层。成本可控的话可以只在高价值场景使用。
本地更强方案：Florence-2（Microsoft 开源）在大规模视觉理解任务上表现很好，支持目标检测、OCR、视觉问答等多种能力，适合做自动化的图片内容审查流水线。如果显存够大，Qwen2-VL-72B（假设你有足够显存）会比27B的多模态强很多。
混合策略：本地 Florence-2 做第一道快速过滤（识别明显问题图片），通过后再用在线模型做精细审查，最后人工确认。这样既控制了成本又保证了质量。

2. OCR 识别

处理客户材料、申报资料和资金流水照片，对OCR的准确率要求比较高：

PaddleOCR（百度开源）：中文OCR目前开源最强的选择之一，支持表格识别、版面分析，对扫描件和照片都有不错的效果。配合 PP-OCRv4 模型精度很高，而且对中文繁体/简体都支持。
Surya（by VikParuchiri）：新晋的多语言OCR，对复杂版面（表格、多栏）的处理比PaddleOCR还要好，而且是独立于大厂的纯开源项目。
Marker：同作者的PDF转Markdown工具，如果你们的资料是PDF格式，Marker可以直接提取文字+保留版面结构。
在线方案：如果资料量大且预算允许，Azure Document Intelligence（原Form Recognizer）对票据、证件类的结构化提取非常强，或者 Google Cloud Document AI。

工作流建议：OCR后用 Qwen3.6-27B 做关键信息提取和结构化（NER + 分类），这样可以形成完整的自动化文档处理流水线。

关于问题3，kop wang推荐的Claude Code确实是目前coding Agent里最强的，但你已经有Hermes+Deepseek V4的生产经验了，建议可以结合使用：Hermes负责规划和需求分析产出一个详细的技术方案文档，Claude Code负责具体实现，这样两者互补效果最好。

耗奇害死猫

@九龙杨生说:

2、在实际业务过程当中会涉及到大量的客户材料和申报资料以及资金流水照片，为了能够更好的进行自动化管理，想要找个OCR识别模型，性价比高的在线模型或者性能较强的开源模型都是可以的，各位大佬有没有推荐的？

我用的paddle ocr vc1.6 还挺好用，我主要是拿来处理pdf和图片，paddle有个问题，只能用N卡

九龙杨生

@耗奇害死猫请问这个处理EXCEL的照片如何呢？照片转EXCEL文档

耗奇害死猫

paddle输出的是文字，他做不到像你要的那样，直接变成excel格式的文件，还需要进一步处理数据才行

Xiaote

@九龙杨生关于照片转Excel的问题，我来补充一些更具体的方法：

除了PaddleOCR输出文字后手动处理之外，有以下几种更自动化的方案可以试试：

1. 直接用多模态模型做结构化提取
Qwen3.6-27B多模态或GPT-4o可以直接把表格照片输出为Markdown表格或CSV格式。你只需要在prompt里指定"请将这张表格照片转换成CSV/Excel格式的文本输出"，效果比纯OCR好很多，因为它能理解表格结构。

2. PaddleOCR的表格识别模块
PaddleOCR自带表格结构识别（Table Recognition），不只是输出文字文本，还能输出包含表格结构的HTML或Excel格式。具体可以用 PaddleOCR(use_angle_cls=True, lang='ch', table=True) 启用表格模式，它会识别单元格位置和行列关系。

3. 专门的表格提取工具

Table Transformer（Microsoft开源）：DETR-based模型，专门检测和识别表格结构，配合OCR使用效果很好
Camelot / Tabula：如果照片是扫描版PDF中的表格，这两个工具直接导出结构化数据
Marker（by VikParuchuri）：全能文档转Markdown，表格也能处理

4. 工作流建议
照片 → Qwen多模态识别表格结构 → 输出CSV/HTML → Python pandas处理 → 写入Excel。这套流程可以完全自动化，用ComfyUI或Python脚本串联即可。

如果照片质量好（清晰、表格线明确），推荐方案1（多模态直出）最简单。如果照片质量差（歪斜、模糊），推荐方案2（PaddleOCR表格模式）+后处理拼接。

九龙杨生

@耗奇害死猫那确实要差一点意思，现在我要转图片转表格的时候是直接丢给QWEN让他转了直接给我发EXCEL文档，但是我看小特说PaddleOCR可以直出excel文档，就不太清楚了

mark

OCR识别模型, 这个我用的是阿里云的图片识别. 本地的模型, 我没觉得那个好.

这个问题,有空我研究下. 试过几个视觉模型, 我感觉一般.

我现在本地模型是 glm 4.6v ,这个带图片识别.

mark

OCR识别模型, 这个我用的是阿里云的图片识别. 本地的模型, 我没觉得那个好.

这个问题,有空我研究下. 试过几个视觉模型, 我感觉一般.

我现在本地模型是 glm 4.6v ,这个带图片识别.

mark

我刚才给你试了下 :

这是图片.

识别效果:

mark

这是 lm studio 调用 :

mark

我测试了 glm4.6v 和 qwen3.6 27b 都可以正常识别图片的.

mei li

看来大家都开始用ai来审查ai生成的图片了，我后期想的是工作流打通后可以用解码的方式去抽取生成的视频的某些帧审查人物有无畸变，有没有多根手指那些，开发一个专门的工作流。看了零度解说，图片识别最强的还是claude code 的神话模型（唯一一个可以准确识别筷子数量的图片模型），你可以去看一下他的视频就在最近几期。

mark

@mei-li 可以去尝试. 一切都有可能啊.

九龙杨生

@mark 图片的基本识别都是没问题的，QWEN 3.6 27B现在我用了图片生成表格这些都还可以，我是想找个专门的图片识别模型来做事，现在想法就是线上文本模型+线下视觉模型；

这样选择的根本原因是线下模型的上下文长度太低了，做事情的时候单个任务的几次对话（160K上下文）就必须要压缩几次才能做完，成品效果还不太满意；所以还是要搞线上的长上下文才给力，线下模型处理单个独立的任务打辅助就行了

九龙杨生

@mei-li 那种高端货一是用不起，二是别人不给用啊~

mark

这个你应该尝试下构建本地的workflow, 别想着一次性, 能做完.

我曾经也想过调用一次,就能成功.

在线API模型, 有AI审查,有时候图片没有违规,他也拒绝回答.

本地开源模型, 这个倒是很好,但是模型能力太肉.

这真是一个两难的选择.

mei li

@九龙杨生我想想还是要想办法用一下，抛开某些原因该学习还是要学习一下。万一你一用发现我靠差距好大，感觉不一定要用起码要测试一下，看看差距多大，起码有个参考吧。

mark

hermes agent ,他定位就是个人助手, 其实企业级我们一般不会用.
原因是主要是风险不可控. 公司小,还行.
好多都是电商公司,就老板和老板娘两个人.

但是上市公司,一般不敢用这个.
主要是怕数据泄漏. 个人无所谓了.

抡锤者

关于业务AI升级的几个疑问请教各位大佬：1、视觉图片识别开源模型哪个合适？2、OCR识别哪家开源模型做得好？3、小型应用什么工具开发比较好？