大佬们，中小企业自建本地大模型有没有什么可行的方案？

九龙杨生

他们这个需求其实要满足的话不算难，直接上RTX 6000 PRO一张就可以，他们也没有严格的精确度要求，都不用跑FP8模型，跑Q4_K_M就行，然后AI服务器上面弄VLLM+QWEN3.6 27B+comfyui生图，再弄个一般的主机跑Hermes或者龙虾调用AI服务器上面模型和生图就行。为了扩展性，AI服务器主板一来选pcie通道多的，万一发现一张卡性能不够就再加一张怎么感觉都够了。

Tony Wang

我觉得你们领导和用户对本地模型的能力和速度没有感性认识, 不如先申请经费搭建一个最小的本地化原型.

最怕这种大概的需求, 大概率是搭建完之后全是埋怨.

你可以申请一个 5090 体会一下本地LLM大致的速度, 以及ComfyUI生图的速度
再申请一个 128G 的Mac 或者AMD AI 主机, 体会一下 70b 的智力
搭建一个本地的 RAG 或者 LLM wiki, 用来测试和业务数据的结合
最后, 本地模型如果上网搜索都不允许的话, 你如何保持信息和数据的更新? 这个也是要考虑的问题.

这套原型搭建下来, 不到10万块. 等跑通了. 剩下的就好办了, 根据并发的需求, 配置1张或者多张 RTX pro 6000 就可以了.

mark

这个领导,属于意淫状态, 没搞过大模型.
如果是非必须, 尽量不要参和.
免得到时候花几十万,效果不好,肯定找你麻烦.

jenaflex

@mark 对，有时侯没有实操业务能力的领导会拍脑袋。一定要和领导多对齐，落实到书面。

现在好像做微软的PowerPoint，我没看到有什么好方案。微软自家收费的M365 copilot我工作中也在用，有agent mode，能帮我把现有ppt里的图片排序、统一字体等简单功能，但是非常非常慢（感觉比vibe coding的反馈速度慢5-10倍。我工作当中都是尽量用markdown+mermaid流程图，挺美观的。
ppt除非微软开放它的文件标准和api，本身就不适合通过AI编程实现自动做ppt的。

能不能先租带GPU的VPS（能确保数据安全，不外溢的），先试一下效果，demo一下，看下是不是领导和员工想要的？

另外，如果真的成为生产力刚需了，个人觉得最好要有两台相同的服务器做High Availability和load balancing，一台有故障、回需要软件维护的时候，自动迁移到另一台上。

mark

花几十万, 这领导是想当然了. 是真没脑子, 自己买api接口就行了. 试试,再投入硬件.

williamlouis

@blackjack 这么喜欢帮AI纠错。给你个网站你可以找它问。畅聊。https://chat.deepseek.com/
而且你可以用上科学训练法。好好的发泄下。

blackjack

@williamlouis 说:

@blackjack 这么喜欢帮AI纠错。给你个网站你可以找它问。畅聊。https://chat.deepseek.com/
而且你可以用上科学训练法。好好的发泄下。

你得对你发出来的东西负责啊，要不最后都被垃圾淹没了，也就没人来了

terry

@williamlouis 以后不要发这种东西，你明知道是AI写的还发，这是严禁的。

terry

@blackjack 我和他说过了，下不为例，这种AI总结的垃圾文章严禁发布。

nmgsjjgd vcd

我觉的你先搭起来个测试环境，给领导看一下，让他体验一下。我用anthingllm这款开源软件配合本地能跑的大模型搭了个测试，内网运行，也好管理。测试完了，你再考虑你的并发数该搭配硬件的配置。

Tony Wang

@nmgsjjgd-vcd

网站新开了 “AI进阶话题”, 欢迎来分享一下 anythingllm 的部署、使用和优化经验.

Phuong Ngo

我司也有类似的需求，公司要求满足30并发需求，主要用LLM进行代码生成，测试用例编写。已采购RTXpro6000 96G的，主机内存64G，但是现在我司的半吊子IT跑模型用的是windows系统，上面跑的模型是GPT 122B，qwen 3.5 35BA3B的模型，开放内网地址让大家用openclaw去调用，现在很难满足30调用，连并发10都做不到，也想问问这种情况如果迁移到ubuntu下，再好好优化一下能否有比较明显的改善，例如全员从openclaw迁移到Hermes Agent。

terry

RTX Pro 6000的带宽10并发很难，和windows无关，带宽和算力在那摆着，你要想并发高，只有sg-langg，这玩意不好折腾。

Phuong Ngo

多卡部署可以解决并发的难题么？

kop wang

@Phuong-Ngo
1、用LLM进行代码生成，测试用例编写，为何要用openClaw或者Hermes？Claude Code、OpenCode是不满足哪点需求？
2、qwen3.5-35B-A3B的能力真的能支持有效的代码产出吗？更何况是搭配通用事务Agent，而不是专用Coding Agent的前提下。
3、操作系统的区别并不会有质的性能提升。相同硬件的前提下，LLM服务的性能主要还是取决于运行框架和运行参数。当然，Linux才有最好的框架生态条件。所以迁移系统和框架、参数调整都是必然。
4、多卡并行当然可以适当提升并发，但你说的多卡是直接多一块pro6000？还是pro6000的价格拆成两个6000D或者类似的情况？

Phuong Ngo

@kop-wang
1.用openclaw是我司老板过年听说龙虾很厉害，没有怎么仔细研究就想要在本地搭建，交给公司的IT全权负责搭建，也没有研究诸如用claude code、opencode等调用其他模型的API的路子。
2.目前的现状是公司的IT部署什么模型，我们就用什么模型，也没有什么真正的产出，顶多就是截取一些代码片段，让agent分析这段代码哪里出现问题了，改改，就这样了。其实主要还是以云端的AI为主，用的最多的就是微软的copilot，因为能在vscode中直接进行代码补全等操作，方便省事。目前我司在AI编程领域处于探索和摸索阶段。
3.明白，系统改迁移还是迁移。
4.对于多卡部署，佬有什么建议，尽管提出来，洗耳恭听。

kop wang

@Phuong-Ngo

关于Agent的选择，通用事务Agent在代码能力方面是远不及专用的Coding Agent的。Coding Agent包括但不限于Copilot（今天的更新他也支持自定义LLM供应商了），Claude Code、OpenCode等。以上的工具在Coding能力效果远大于OpenClaw和Hermes Agent。当然，客观事实是一回事，公司现状是另一回事，咱们只讨论理想情况。

至于说Coding的方式，目前普遍已经进化到vibe Coding为主。也就是代码的修改不局限于代码段的tab补全提示和复制粘贴。而是直接交给AI任务，让他直接完成编辑、编译、调试、测试整套流程。然后人工再介入审核的模式，你用Copilot肯定知道他的Agent模式，就是这样。

最后是关于多卡，其实从你们目前的localLLM的整套逻辑并没有跑起来，所以我个人也不会有什么建设性的意见。还是先以优化为主。最起码你们要先固定一个有实战意义的使用模式，然后再聊优化会比较有建设性一些。

Phuong Ngo

@kop-wang 额，也对。已经有RTX6000PRO了，那让IT迁移迁移系统，慢慢一步一步做优化慢慢尝试和测试，至少先在逻辑上实现跑通，云端和本地两条腿走路。多谢佬耐心提意见。

kop wang

@Phuong-Ngo 过奖了，互相学习，如果有空欢迎开帖分享最终成果。

c0aster

@terry 叫公司买了2张3090 我先来玩一玩，结果坑的是那台旧服务器是r730，riser2的X16是CPU2，只装了CPU1，自费先买了一个riser3

抡锤者

大佬们，中小企业自建本地大模型有没有什么可行的方案？