大佬们，中小企业自建本地大模型有没有什么可行的方案？

深圳律师陈扬波

打包给我，我有经验。我在用本地模型处理刑事案卷。

kop wang

这个东西变数太大了。
“花费尽可能少”，“可能并发在10-20吧”，“至少也能花个几十W吧”

我觉得最起码要先有一个最小可验证模型。
就是你的业务场景至少需要什么样的模型，什么样的性能，才能跑通，有这个定量的前提之下再聊方案，聊预算。

在需求不能明确量化的前提下谈方案没什么实际意义。

kop wang

这还只是LLM本身的角度，还有信息化的角度需要考虑。

比如：
贵司现有的信息系统和数据如何稳定暴露给大模型？
大模型在整个自动化链路里能获得多高的权限？
是否涉及到现有信息系统的二次开发？

可能到最后，你100万的预算只有30万能真正砸在LLM服务本身上。

williamlouis

@c0aster 如果想得到帮助。请把需求详细化。公司规模。业务。是否远程。等等

laobenxiong

估计还得招一个 it 来维护...

c0aster

@kop-wang 数据暴露有一部分可以走开放API，还有一部分可能要利用playright去爬取，本地部署之后，完全限制外网，可以最给最高权限，不涉及二开了，不能走API的数据只能爬虫（当然是有企业内有密码的有权限下的合规爬取）

c0aster

@williamlouis
1、最大的需求就是办公，领导想AI做PPT，我看了下他给的一个参考明显是画出来的。
2、公司可能有500 600人吧，并发可能就10-20人最多了，主要是办公方面的，如写作和做PPT
3、就是问数的需求，部分数据有API能取、部分数据只能爬取。（其实主要的需求还是问数，比如领导通过工具说要查今本月、本周的销售，并分析出业绩下滑的原因之类的）
4、完全内部使用，服务器完全内网隔离。

kop wang

按照现在的要求，也就是说连给LLM提供外网的信息检索也不行。那基本上小模型这条路就走不通了。
想稳定只能走大体积MOE模型这条路了，比如deepseek-v4-pro。

然后就是关于没有二开，没有二开的话，对于员工侧操作界面是什么？如何鉴权？不可能每个人都各自有一个类似Hermes Agent的东西自己养吧……

LLM硬件这个我个人就无法给出有经验的判断了，期待楼主的最终成果。

blackjack

每个人配一个5090游戏本吧，你给他们配好Hermes

c0aster

@kop-wang
我看了下deepseek-v4-pro满血好像要4张还是3张B200/B300，好像没那个实力，可能只有走deepseek-v4-flash，不知道能满足使用不
业务系统取数的话，我的想法是我统一拿我的高权限的去取，取完存本地，其他的通过本地来查
总之，太难了

Xiaote

@c0aster 关于 DeepSeek V4 Flash 能不能跑，给个具体点的参考：

Flash 版本大概需要 8bit 下跑满 685B MoE，单卡 80G 跑不动（激活参数 ~37B 但完整模型太大），至少要 4× A100 80G 或者 2× H200 才跑得舒服。10-20 并发的话，vLLM 配合 continuous batching 可以撑，但 2-4 张卡的压力不小。

如果你的预算是几十万这个级别，更现实的方案是：

方案一：4× A100 80G（大概 25-30 万）

跑 DeepSeek V4 Flash，vLLM 做推理服务
10-20 并发 OK，但需要配好 prefix caching 和适当降低 max-tokens
功耗大概 1200-1600W，还需要一台服务器机箱

方案二：2× A100 80G + Qwen3.6-72B（预算 15-18 万）

72B 单机双卡就能跑，剩余预算还可以配一台专门的 ComfyUI 机器（4090/5090）
办公写作、问数这些场景 72B 足够了
双机分离的好处是 LLM 和画图/视频的负载不抢显存

关于 PPT 和画图需求：
你说的 NotebookLM + ComfyUI 那条链路确实可行。大模型先生成文案结构 → 调 ComfyUI 工作流出图 → 合成 PPT。但 ComfyUI 最好是独立一张卡跑，跟 LLM 分开，不然显存打架很头疼。

关于问数：
如果用 Qwen 系列的话，可以接 Function Calling 做 Structured Output，让模型输出 SQL 或者 API 调用参数，再由一个中间层去执行。不需要让模型自己去爬——模型负责理解语言和生成参数，中间层（Python 脚本/Node.js）负责执行。

给个大概的架构建议：

LLM 推理服务器（4×A100 / 2×A100 80G）
    → vLLM + Qwen3.6-72B 或 DS V4 Flash
    → 提供 OpenAI 兼容 API
业务中台服务器（普通 CPU 服务器）
    → 处理鉴权、路由、业务逻辑
    → 执行 SQL 查询 / API 调用
    → 调用画图接口（ComfyUI）
ComfyUI 服务器（1×RTX 4090/5090）
    → 负责所有图片/PPT 素材生成

全是内网隔离，不做外网访问，这样安全性也够。人员配比方面，可以参考 laobenxiong 说的——至少需要一个 IT 来维护，如果完全没接触过 Linux/Docker，初期学习成本确实不低。

kop wang

@c0aster 所以你自己也能明白，本地AI不是光LLM服务这点事儿。知识库，数据链路，客户端功能，都是需要定制匹配的。阿里腾讯都有ai本地部署团队，你可以咨询一下报价。

最悲剧的就是预算报了，硬件搭了，最后发现还需要几倍预算才能用起来。

blackjack

@Xiaote 说:

Qwen3.6-72B（预算 15-18 万）

大哥，qwen3.6只有27b没有72b吧？
小特眼花了吧？一个A100就够10-20并发了吧

terry

@blackjack 小特是AI，它经常胡说。

terry

@c0aster 你的需求无脑买RTX Pro 6000，买好了再考虑怎么部署，怎么玩都行。

williamlouis

@c0aster AI制作的方案是完美隔离。它后续说的问题很好解决。部署成功后做个人工培训的周期。2周左右。提前训练下就可以。这个过程是联网的。但是不连你公司的数据。拿一批虚拟的案例训练它即可。这样你们常用的数据就加载全了。之后根据 AI的方案实施就可以了。

blackjack

@williamlouis 说:

@c0aster AI制作的方案是完美隔离。它后续说的问题很好解决。部署成功后做个人工培训的周期。2周左右。提前训练下就可以。这个过程是联网的。但是不连你公司的数据。拿一批虚拟的案例训练它即可。这样你们常用的数据就加载全了。之后根据 AI的方案实施就可以了。

ai怎么就盯着2024年qwen2.5 72b不放呢？仅用过时的训练数据回答呢？

九龙杨生

他们这个需求其实要满足的话不算难，直接上RTX 6000 PRO一张就可以，他们也没有严格的精确度要求，都不用跑FP8模型，跑Q4_K_M就行，然后AI服务器上面弄VLLM+QWEN3.6 27B+comfyui生图，再弄个一般的主机跑Hermes或者龙虾调用AI服务器上面模型和生图就行。为了扩展性，AI服务器主板一来选pcie通道多的，万一发现一张卡性能不够就再加一张怎么感觉都够了。

Tony Wang

我觉得你们领导和用户对本地模型的能力和速度没有感性认识, 不如先申请经费搭建一个最小的本地化原型.

最怕这种大概的需求, 大概率是搭建完之后全是埋怨.

你可以申请一个 5090 体会一下本地LLM大致的速度, 以及ComfyUI生图的速度
再申请一个 128G 的Mac 或者AMD AI 主机, 体会一下 70b 的智力
搭建一个本地的 RAG 或者 LLM wiki, 用来测试和业务数据的结合
最后, 本地模型如果上网搜索都不允许的话, 你如何保持信息和数据的更新? 这个也是要考虑的问题.

这套原型搭建下来, 不到10万块. 等跑通了. 剩下的就好办了, 根据并发的需求, 配置1张或者多张 RTX pro 6000 就可以了.

mark

这个领导,属于意淫状态, 没搞过大模型.
如果是非必须, 尽量不要参和.
免得到时候花几十万,效果不好,肯定找你麻烦.

抡锤者

大佬们，中小企业自建本地大模型有没有什么可行的方案？