大佬们，中小企业自建本地大模型有没有什么可行的方案？

Phuong Ngo

我司也有类似的需求，公司要求满足30并发需求，主要用LLM进行代码生成，测试用例编写。已采购RTXpro6000 96G的，主机内存64G，但是现在我司的半吊子IT跑模型用的是windows系统，上面跑的模型是GPT 122B，qwen 3.5 35BA3B的模型，开放内网地址让大家用openclaw去调用，现在很难满足30调用，连并发10都做不到，也想问问这种情况如果迁移到ubuntu下，再好好优化一下能否有比较明显的改善，例如全员从openclaw迁移到Hermes Agent。

terry

RTX Pro 6000的带宽10并发很难，和windows无关，带宽和算力在那摆着，你要想并发高，只有sg-langg，这玩意不好折腾。

Phuong Ngo

多卡部署可以解决并发的难题么？

kop wang

@Phuong-Ngo
1、用LLM进行代码生成，测试用例编写，为何要用openClaw或者Hermes？Claude Code、OpenCode是不满足哪点需求？
2、qwen3.5-35B-A3B的能力真的能支持有效的代码产出吗？更何况是搭配通用事务Agent，而不是专用Coding Agent的前提下。
3、操作系统的区别并不会有质的性能提升。相同硬件的前提下，LLM服务的性能主要还是取决于运行框架和运行参数。当然，Linux才有最好的框架生态条件。所以迁移系统和框架、参数调整都是必然。
4、多卡并行当然可以适当提升并发，但你说的多卡是直接多一块pro6000？还是pro6000的价格拆成两个6000D或者类似的情况？

Phuong Ngo

@kop-wang
1.用openclaw是我司老板过年听说龙虾很厉害，没有怎么仔细研究就想要在本地搭建，交给公司的IT全权负责搭建，也没有研究诸如用claude code、opencode等调用其他模型的API的路子。
2.目前的现状是公司的IT部署什么模型，我们就用什么模型，也没有什么真正的产出，顶多就是截取一些代码片段，让agent分析这段代码哪里出现问题了，改改，就这样了。其实主要还是以云端的AI为主，用的最多的就是微软的copilot，因为能在vscode中直接进行代码补全等操作，方便省事。目前我司在AI编程领域处于探索和摸索阶段。
3.明白，系统改迁移还是迁移。
4.对于多卡部署，佬有什么建议，尽管提出来，洗耳恭听。

kop wang

@Phuong-Ngo

关于Agent的选择，通用事务Agent在代码能力方面是远不及专用的Coding Agent的。Coding Agent包括但不限于Copilot（今天的更新他也支持自定义LLM供应商了），Claude Code、OpenCode等。以上的工具在Coding能力效果远大于OpenClaw和Hermes Agent。当然，客观事实是一回事，公司现状是另一回事，咱们只讨论理想情况。

至于说Coding的方式，目前普遍已经进化到vibe Coding为主。也就是代码的修改不局限于代码段的tab补全提示和复制粘贴。而是直接交给AI任务，让他直接完成编辑、编译、调试、测试整套流程。然后人工再介入审核的模式，你用Copilot肯定知道他的Agent模式，就是这样。

最后是关于多卡，其实从你们目前的localLLM的整套逻辑并没有跑起来，所以我个人也不会有什么建设性的意见。还是先以优化为主。最起码你们要先固定一个有实战意义的使用模式，然后再聊优化会比较有建设性一些。

Phuong Ngo

@kop-wang 额，也对。已经有RTX6000PRO了，那让IT迁移迁移系统，慢慢一步一步做优化慢慢尝试和测试，至少先在逻辑上实现跑通，云端和本地两条腿走路。多谢佬耐心提意见。

kop wang

@Phuong-Ngo 过奖了，互相学习，如果有空欢迎开帖分享最终成果。

c0aster

@terry 叫公司买了2张3090 我先来玩一玩，结果坑的是那台旧服务器是r730，riser2的X16是CPU2，只装了CPU1，自费先买了一个riser3

terry

@c0aster 这怎么能自费呢？想办法报销

c0aster

@terry 海鲜市场15元没法走报销了，坑的是这机器装2张卡要在两个riser上，没法nvlink，先跑个27B，再研究下comfyui，尝试下再给领导汇报吧，不然买了不也生产力，背锅了，谢谢，后续已考虑rtx pro 6000

terry

@c0aster 多分享点6000点测试帖子，我们屌丝暂时还买不起。能白嫖公司的最好，不心疼，

抡锤者

大佬们，中小企业自建本地大模型有没有什么可行的方案？