关于业务AI升级的几个疑问请教各位大佬：1、视觉图片识别开源模型哪个合适？2、OCR识别哪家开源模型做得好？3、小型应用什么工具开发比较好？

mark

OCR识别模型, 这个我用的是阿里云的图片识别. 本地的模型, 我没觉得那个好.

这个问题,有空我研究下. 试过几个视觉模型, 我感觉一般.

我现在本地模型是 glm 4.6v ,这个带图片识别.

mark

OCR识别模型, 这个我用的是阿里云的图片识别. 本地的模型, 我没觉得那个好.

这个问题,有空我研究下. 试过几个视觉模型, 我感觉一般.

我现在本地模型是 glm 4.6v ,这个带图片识别.

mark

我刚才给你试了下 :

这是图片.

识别效果:

mark

这是 lm studio 调用 :

mark

我测试了 glm4.6v 和 qwen3.6 27b 都可以正常识别图片的.

mei li

看来大家都开始用ai来审查ai生成的图片了，我后期想的是工作流打通后可以用解码的方式去抽取生成的视频的某些帧审查人物有无畸变，有没有多根手指那些，开发一个专门的工作流。看了零度解说，图片识别最强的还是claude code 的神话模型（唯一一个可以准确识别筷子数量的图片模型），你可以去看一下他的视频就在最近几期。

mark

@mei-li 可以去尝试. 一切都有可能啊.

九龙杨生

@mark 图片的基本识别都是没问题的，QWEN 3.6 27B现在我用了图片生成表格这些都还可以，我是想找个专门的图片识别模型来做事，现在想法就是线上文本模型+线下视觉模型；

这样选择的根本原因是线下模型的上下文长度太低了，做事情的时候单个任务的几次对话（160K上下文）就必须要压缩几次才能做完，成品效果还不太满意；所以还是要搞线上的长上下文才给力，线下模型处理单个独立的任务打辅助就行了

九龙杨生

@mei-li 那种高端货一是用不起，二是别人不给用啊~

mark

这个你应该尝试下构建本地的workflow, 别想着一次性, 能做完.

我曾经也想过调用一次,就能成功.

在线API模型, 有AI审查,有时候图片没有违规,他也拒绝回答.

本地开源模型, 这个倒是很好,但是模型能力太肉.

这真是一个两难的选择.

mei li

@九龙杨生我想想还是要想办法用一下，抛开某些原因该学习还是要学习一下。万一你一用发现我靠差距好大，感觉不一定要用起码要测试一下，看看差距多大，起码有个参考吧。

mark

hermes agent ,他定位就是个人助手, 其实企业级我们一般不会用.
原因是主要是风险不可控. 公司小,还行.
好多都是电商公司,就老板和老板娘两个人.

但是上市公司,一般不敢用这个.
主要是怕数据泄漏. 个人无所谓了.

terry

@mei-li 你为什么给零度打码？我以为是看到岛国片了，我说怎么这么眼熟.....

mark

@mei-li 0度算是 YT 科技圈的大V了, 百万的粉丝.

我向他投稿过, 就是 hermes agent windows 原生版本. 他没采纳.

他做的视频,主要给那些想白嫖的软件技巧,我感觉他技术水平一般.

推广什么软件, 自己搞一套多好.

等hermes agent 官方出了 Windows 版本,

他还还说这不是第三方的集成的

他还不知道, hermes agent Windows 核心代码 ,是我提交给官方的.

terry

@mark 赛道不同，你投稿的内容与他的频道定位不同，不采纳很正常。大多数人并不需要掌握太深的知识，这不代表他不懂，只是术业有专攻而已。
另外，你可能不知道，做教程类频道自己写不难，因为都是自己的经验，要是接受投稿，尤其是小众领域，他还要理解你的项目，然后实操，需求不大的话，播放数据又不好，所以没采纳正常。
还有，大主播邮件多的很，有可能根本没看到。

九龙杨生

@mark 是的，我现在就是每一段一个hermes技能，丢给他操作然后我来审核结果，结果没问题了再让他做下一段。

九龙杨生

@mark 是的，为了避免风险，现在Hermes能够接触到的数据都要本机和异地云端做好备份。

alanwoo

我把qwen3-vl 8b q4當OCR用，還不錯，主要是不佔用太多內存大概6G，qwen3.6-27b q4推理能力更強只是需要更大內存，大概16G以上

mei li

@mark 术业有专攻，人家就是抓住了白嫖党心理，这样大概率不是程序员出身，一般是测试，只知道有这样产品不知道怎么来的。

mei li

@terry 我也纯属于尊重人家肖像权了，哈哈

抡锤者

关于业务AI升级的几个疑问请教各位大佬：1、视觉图片识别开源模型哪个合适？2、OCR识别哪家开源模型做得好？3、小型应用什么工具开发比较好？