大佬们，中小企业自建本地大模型有没有什么可行的方案？

kop wang

@c0aster 所以你自己也能明白，本地AI不是光LLM服务这点事儿。知识库，数据链路，客户端功能，都是需要定制匹配的。阿里腾讯都有ai本地部署团队，你可以咨询一下报价。

最悲剧的就是预算报了，硬件搭了，最后发现还需要几倍预算才能用起来。

blackjack

@Xiaote 说:

Qwen3.6-72B（预算 15-18 万）

大哥，qwen3.6只有27b没有72b吧？
小特眼花了吧？一个A100就够10-20并发了吧

terry

@blackjack 小特是AI，它经常胡说。

terry

@c0aster 你的需求无脑买RTX Pro 6000，买好了再考虑怎么部署，怎么玩都行。

williamlouis

@c0aster AI制作的方案是完美隔离。它后续说的问题很好解决。部署成功后做个人工培训的周期。2周左右。提前训练下就可以。这个过程是联网的。但是不连你公司的数据。拿一批虚拟的案例训练它即可。这样你们常用的数据就加载全了。之后根据 AI的方案实施就可以了。

blackjack

@williamlouis 说:

@c0aster AI制作的方案是完美隔离。它后续说的问题很好解决。部署成功后做个人工培训的周期。2周左右。提前训练下就可以。这个过程是联网的。但是不连你公司的数据。拿一批虚拟的案例训练它即可。这样你们常用的数据就加载全了。之后根据 AI的方案实施就可以了。

ai怎么就盯着2024年qwen2.5 72b不放呢？仅用过时的训练数据回答呢？

九龙杨生

他们这个需求其实要满足的话不算难，直接上RTX 6000 PRO一张就可以，他们也没有严格的精确度要求，都不用跑FP8模型，跑Q4_K_M就行，然后AI服务器上面弄VLLM+QWEN3.6 27B+comfyui生图，再弄个一般的主机跑Hermes或者龙虾调用AI服务器上面模型和生图就行。为了扩展性，AI服务器主板一来选pcie通道多的，万一发现一张卡性能不够就再加一张怎么感觉都够了。

Tony Wang

我觉得你们领导和用户对本地模型的能力和速度没有感性认识, 不如先申请经费搭建一个最小的本地化原型.

最怕这种大概的需求, 大概率是搭建完之后全是埋怨.

你可以申请一个 5090 体会一下本地LLM大致的速度, 以及ComfyUI生图的速度
再申请一个 128G 的Mac 或者AMD AI 主机, 体会一下 70b 的智力
搭建一个本地的 RAG 或者 LLM wiki, 用来测试和业务数据的结合
最后, 本地模型如果上网搜索都不允许的话, 你如何保持信息和数据的更新? 这个也是要考虑的问题.

这套原型搭建下来, 不到10万块. 等跑通了. 剩下的就好办了, 根据并发的需求, 配置1张或者多张 RTX pro 6000 就可以了.

mark

这个领导,属于意淫状态, 没搞过大模型.
如果是非必须, 尽量不要参和.
免得到时候花几十万,效果不好,肯定找你麻烦.

jenaflex

@mark 对，有时侯没有实操业务能力的领导会拍脑袋。一定要和领导多对齐，落实到书面。

现在好像做微软的PowerPoint，我没看到有什么好方案。微软自家收费的M365 copilot我工作中也在用，有agent mode，能帮我把现有ppt里的图片排序、统一字体等简单功能，但是非常非常慢（感觉比vibe coding的反馈速度慢5-10倍。我工作当中都是尽量用markdown+mermaid流程图，挺美观的。
ppt除非微软开放它的文件标准和api，本身就不适合通过AI编程实现自动做ppt的。

能不能先租带GPU的VPS（能确保数据安全，不外溢的），先试一下效果，demo一下，看下是不是领导和员工想要的？

另外，如果真的成为生产力刚需了，个人觉得最好要有两台相同的服务器做High Availability和load balancing，一台有故障、回需要软件维护的时候，自动迁移到另一台上。

mark

花几十万, 这领导是想当然了. 是真没脑子, 自己买api接口就行了. 试试,再投入硬件.

williamlouis

@blackjack 这么喜欢帮AI纠错。给你个网站你可以找它问。畅聊。https://chat.deepseek.com/
而且你可以用上科学训练法。好好的发泄下。

blackjack

@williamlouis 说:

@blackjack 这么喜欢帮AI纠错。给你个网站你可以找它问。畅聊。https://chat.deepseek.com/
而且你可以用上科学训练法。好好的发泄下。

你得对你发出来的东西负责啊，要不最后都被垃圾淹没了，也就没人来了

terry

@williamlouis 以后不要发这种东西，你明知道是AI写的还发，这是严禁的。

terry

@blackjack 我和他说过了，下不为例，这种AI总结的垃圾文章严禁发布。

nmgsjjgd vcd

我觉的你先搭起来个测试环境，给领导看一下，让他体验一下。我用anthingllm这款开源软件配合本地能跑的大模型搭了个测试，内网运行，也好管理。测试完了，你再考虑你的并发数该搭配硬件的配置。

Tony Wang

@nmgsjjgd-vcd

网站新开了 “AI进阶话题”, 欢迎来分享一下 anythingllm 的部署、使用和优化经验.

Phuong Ngo

我司也有类似的需求，公司要求满足30并发需求，主要用LLM进行代码生成，测试用例编写。已采购RTXpro6000 96G的，主机内存64G，但是现在我司的半吊子IT跑模型用的是windows系统，上面跑的模型是GPT 122B，qwen 3.5 35BA3B的模型，开放内网地址让大家用openclaw去调用，现在很难满足30调用，连并发10都做不到，也想问问这种情况如果迁移到ubuntu下，再好好优化一下能否有比较明显的改善，例如全员从openclaw迁移到Hermes Agent。

terry

RTX Pro 6000的带宽10并发很难，和windows无关，带宽和算力在那摆着，你要想并发高，只有sg-langg，这玩意不好折腾。

Phuong Ngo

多卡部署可以解决并发的难题么？

抡锤者

大佬们，中小企业自建本地大模型有没有什么可行的方案？