大佬们，中小企业自建本地大模型有没有什么可行的方案？

c0aster

@kop-wang
我看了下deepseek-v4-pro满血好像要4张还是3张B200/B300，好像没那个实力，可能只有走deepseek-v4-flash，不知道能满足使用不
业务系统取数的话，我的想法是我统一拿我的高权限的去取，取完存本地，其他的通过本地来查
总之，太难了

Xiaote

@c0aster 关于 DeepSeek V4 Flash 能不能跑，给个具体点的参考：

Flash 版本大概需要 8bit 下跑满 685B MoE，单卡 80G 跑不动（激活参数 ~37B 但完整模型太大），至少要 4× A100 80G 或者 2× H200 才跑得舒服。10-20 并发的话，vLLM 配合 continuous batching 可以撑，但 2-4 张卡的压力不小。

如果你的预算是几十万这个级别，更现实的方案是：

方案一：4× A100 80G（大概 25-30 万）

跑 DeepSeek V4 Flash，vLLM 做推理服务
10-20 并发 OK，但需要配好 prefix caching 和适当降低 max-tokens
功耗大概 1200-1600W，还需要一台服务器机箱

方案二：2× A100 80G + Qwen3.6-72B（预算 15-18 万）

72B 单机双卡就能跑，剩余预算还可以配一台专门的 ComfyUI 机器（4090/5090）
办公写作、问数这些场景 72B 足够了
双机分离的好处是 LLM 和画图/视频的负载不抢显存

关于 PPT 和画图需求：
你说的 NotebookLM + ComfyUI 那条链路确实可行。大模型先生成文案结构 → 调 ComfyUI 工作流出图 → 合成 PPT。但 ComfyUI 最好是独立一张卡跑，跟 LLM 分开，不然显存打架很头疼。

关于问数：
如果用 Qwen 系列的话，可以接 Function Calling 做 Structured Output，让模型输出 SQL 或者 API 调用参数，再由一个中间层去执行。不需要让模型自己去爬——模型负责理解语言和生成参数，中间层（Python 脚本/Node.js）负责执行。

给个大概的架构建议：

LLM 推理服务器（4×A100 / 2×A100 80G）
    → vLLM + Qwen3.6-72B 或 DS V4 Flash
    → 提供 OpenAI 兼容 API
业务中台服务器（普通 CPU 服务器）
    → 处理鉴权、路由、业务逻辑
    → 执行 SQL 查询 / API 调用
    → 调用画图接口（ComfyUI）
ComfyUI 服务器（1×RTX 4090/5090）
    → 负责所有图片/PPT 素材生成

全是内网隔离，不做外网访问，这样安全性也够。人员配比方面，可以参考 laobenxiong 说的——至少需要一个 IT 来维护，如果完全没接触过 Linux/Docker，初期学习成本确实不低。

kop wang

@c0aster 所以你自己也能明白，本地AI不是光LLM服务这点事儿。知识库，数据链路，客户端功能，都是需要定制匹配的。阿里腾讯都有ai本地部署团队，你可以咨询一下报价。

最悲剧的就是预算报了，硬件搭了，最后发现还需要几倍预算才能用起来。

blackjack

@Xiaote 说:

Qwen3.6-72B（预算 15-18 万）

大哥，qwen3.6只有27b没有72b吧？
小特眼花了吧？一个A100就够10-20并发了吧

terry

@blackjack 小特是AI，它经常胡说。

terry

@c0aster 你的需求无脑买RTX Pro 6000，买好了再考虑怎么部署，怎么玩都行。

williamlouis

@c0aster AI制作的方案是完美隔离。它后续说的问题很好解决。部署成功后做个人工培训的周期。2周左右。提前训练下就可以。这个过程是联网的。但是不连你公司的数据。拿一批虚拟的案例训练它即可。这样你们常用的数据就加载全了。之后根据 AI的方案实施就可以了。

blackjack

@williamlouis 说:

@c0aster AI制作的方案是完美隔离。它后续说的问题很好解决。部署成功后做个人工培训的周期。2周左右。提前训练下就可以。这个过程是联网的。但是不连你公司的数据。拿一批虚拟的案例训练它即可。这样你们常用的数据就加载全了。之后根据 AI的方案实施就可以了。

ai怎么就盯着2024年qwen2.5 72b不放呢？仅用过时的训练数据回答呢？

九龙杨生

他们这个需求其实要满足的话不算难，直接上RTX 6000 PRO一张就可以，他们也没有严格的精确度要求，都不用跑FP8模型，跑Q4_K_M就行，然后AI服务器上面弄VLLM+QWEN3.6 27B+comfyui生图，再弄个一般的主机跑Hermes或者龙虾调用AI服务器上面模型和生图就行。为了扩展性，AI服务器主板一来选pcie通道多的，万一发现一张卡性能不够就再加一张怎么感觉都够了。

Tony Wang

我觉得你们领导和用户对本地模型的能力和速度没有感性认识, 不如先申请经费搭建一个最小的本地化原型.

最怕这种大概的需求, 大概率是搭建完之后全是埋怨.

你可以申请一个 5090 体会一下本地LLM大致的速度, 以及ComfyUI生图的速度
再申请一个 128G 的Mac 或者AMD AI 主机, 体会一下 70b 的智力
搭建一个本地的 RAG 或者 LLM wiki, 用来测试和业务数据的结合
最后, 本地模型如果上网搜索都不允许的话, 你如何保持信息和数据的更新? 这个也是要考虑的问题.

这套原型搭建下来, 不到10万块. 等跑通了. 剩下的就好办了, 根据并发的需求, 配置1张或者多张 RTX pro 6000 就可以了.

mark

这个领导,属于意淫状态, 没搞过大模型.
如果是非必须, 尽量不要参和.
免得到时候花几十万,效果不好,肯定找你麻烦.

jenaflex

@mark 对，有时侯没有实操业务能力的领导会拍脑袋。一定要和领导多对齐，落实到书面。

现在好像做微软的PowerPoint，我没看到有什么好方案。微软自家收费的M365 copilot我工作中也在用，有agent mode，能帮我把现有ppt里的图片排序、统一字体等简单功能，但是非常非常慢（感觉比vibe coding的反馈速度慢5-10倍。我工作当中都是尽量用markdown+mermaid流程图，挺美观的。
ppt除非微软开放它的文件标准和api，本身就不适合通过AI编程实现自动做ppt的。

能不能先租带GPU的VPS（能确保数据安全，不外溢的），先试一下效果，demo一下，看下是不是领导和员工想要的？

另外，如果真的成为生产力刚需了，个人觉得最好要有两台相同的服务器做High Availability和load balancing，一台有故障、回需要软件维护的时候，自动迁移到另一台上。

mark

花几十万, 这领导是想当然了. 是真没脑子, 自己买api接口就行了. 试试,再投入硬件.

williamlouis

@blackjack 这么喜欢帮AI纠错。给你个网站你可以找它问。畅聊。https://chat.deepseek.com/
而且你可以用上科学训练法。好好的发泄下。

blackjack

@williamlouis 说:

@blackjack 这么喜欢帮AI纠错。给你个网站你可以找它问。畅聊。https://chat.deepseek.com/
而且你可以用上科学训练法。好好的发泄下。

你得对你发出来的东西负责啊，要不最后都被垃圾淹没了，也就没人来了

terry

@williamlouis 以后不要发这种东西，你明知道是AI写的还发，这是严禁的。

terry

@blackjack 我和他说过了，下不为例，这种AI总结的垃圾文章严禁发布。

nmgsjjgd vcd

我觉的你先搭起来个测试环境，给领导看一下，让他体验一下。我用anthingllm这款开源软件配合本地能跑的大模型搭了个测试，内网运行，也好管理。测试完了，你再考虑你的并发数该搭配硬件的配置。

Tony Wang

@nmgsjjgd-vcd

网站新开了 “AI进阶话题”, 欢迎来分享一下 anythingllm 的部署、使用和优化经验.

Phuong Ngo

我司也有类似的需求，公司要求满足30并发需求，主要用LLM进行代码生成，测试用例编写。已采购RTXpro6000 96G的，主机内存64G，但是现在我司的半吊子IT跑模型用的是windows系统，上面跑的模型是GPT 122B，qwen 3.5 35BA3B的模型，开放内网地址让大家用openclaw去调用，现在很难满足30调用，连并发10都做不到，也想问问这种情况如果迁移到ubuntu下，再好好优化一下能否有比较明显的改善，例如全员从openclaw迁移到Hermes Agent。

抡锤者

大佬们，中小企业自建本地大模型有没有什么可行的方案？