大佬们，中小企业自建本地大模型有没有什么可行的方案？

mark

这个领导,属于意淫状态, 没搞过大模型.
如果是非必须, 尽量不要参和.
免得到时候花几十万,效果不好,肯定找你麻烦.

jenaflex

@mark 对，有时侯没有实操业务能力的领导会拍脑袋。一定要和领导多对齐，落实到书面。

现在好像做微软的PowerPoint，我没看到有什么好方案。微软自家收费的M365 copilot我工作中也在用，有agent mode，能帮我把现有ppt里的图片排序、统一字体等简单功能，但是非常非常慢（感觉比vibe coding的反馈速度慢5-10倍。我工作当中都是尽量用markdown+mermaid流程图，挺美观的。
ppt除非微软开放它的文件标准和api，本身就不适合通过AI编程实现自动做ppt的。

能不能先租带GPU的VPS（能确保数据安全，不外溢的），先试一下效果，demo一下，看下是不是领导和员工想要的？

另外，如果真的成为生产力刚需了，个人觉得最好要有两台相同的服务器做High Availability和load balancing，一台有故障、回需要软件维护的时候，自动迁移到另一台上。

mark

花几十万, 这领导是想当然了. 是真没脑子, 自己买api接口就行了. 试试,再投入硬件.

williamlouis

@blackjack 这么喜欢帮AI纠错。给你个网站你可以找它问。畅聊。https://chat.deepseek.com/
而且你可以用上科学训练法。好好的发泄下。

blackjack

@williamlouis 说:

@blackjack 这么喜欢帮AI纠错。给你个网站你可以找它问。畅聊。https://chat.deepseek.com/
而且你可以用上科学训练法。好好的发泄下。

你得对你发出来的东西负责啊，要不最后都被垃圾淹没了，也就没人来了

terry

@williamlouis 以后不要发这种东西，你明知道是AI写的还发，这是严禁的。

terry

@blackjack 我和他说过了，下不为例，这种AI总结的垃圾文章严禁发布。

nmgsjjgd vcd

我觉的你先搭起来个测试环境，给领导看一下，让他体验一下。我用anthingllm这款开源软件配合本地能跑的大模型搭了个测试，内网运行，也好管理。测试完了，你再考虑你的并发数该搭配硬件的配置。

Tony Wang

@nmgsjjgd-vcd

网站新开了 “AI进阶话题”, 欢迎来分享一下 anythingllm 的部署、使用和优化经验.

Phuong Ngo

我司也有类似的需求，公司要求满足30并发需求，主要用LLM进行代码生成，测试用例编写。已采购RTXpro6000 96G的，主机内存64G，但是现在我司的半吊子IT跑模型用的是windows系统，上面跑的模型是GPT 122B，qwen 3.5 35BA3B的模型，开放内网地址让大家用openclaw去调用，现在很难满足30调用，连并发10都做不到，也想问问这种情况如果迁移到ubuntu下，再好好优化一下能否有比较明显的改善，例如全员从openclaw迁移到Hermes Agent。

terry

RTX Pro 6000的带宽10并发很难，和windows无关，带宽和算力在那摆着，你要想并发高，只有sg-langg，这玩意不好折腾。

Phuong Ngo

多卡部署可以解决并发的难题么？

kop wang

@Phuong-Ngo
1、用LLM进行代码生成，测试用例编写，为何要用openClaw或者Hermes？Claude Code、OpenCode是不满足哪点需求？
2、qwen3.5-35B-A3B的能力真的能支持有效的代码产出吗？更何况是搭配通用事务Agent，而不是专用Coding Agent的前提下。
3、操作系统的区别并不会有质的性能提升。相同硬件的前提下，LLM服务的性能主要还是取决于运行框架和运行参数。当然，Linux才有最好的框架生态条件。所以迁移系统和框架、参数调整都是必然。
4、多卡并行当然可以适当提升并发，但你说的多卡是直接多一块pro6000？还是pro6000的价格拆成两个6000D或者类似的情况？

Phuong Ngo

@kop-wang
1.用openclaw是我司老板过年听说龙虾很厉害，没有怎么仔细研究就想要在本地搭建，交给公司的IT全权负责搭建，也没有研究诸如用claude code、opencode等调用其他模型的API的路子。
2.目前的现状是公司的IT部署什么模型，我们就用什么模型，也没有什么真正的产出，顶多就是截取一些代码片段，让agent分析这段代码哪里出现问题了，改改，就这样了。其实主要还是以云端的AI为主，用的最多的就是微软的copilot，因为能在vscode中直接进行代码补全等操作，方便省事。目前我司在AI编程领域处于探索和摸索阶段。
3.明白，系统改迁移还是迁移。
4.对于多卡部署，佬有什么建议，尽管提出来，洗耳恭听。

kop wang

@Phuong-Ngo

关于Agent的选择，通用事务Agent在代码能力方面是远不及专用的Coding Agent的。Coding Agent包括但不限于Copilot（今天的更新他也支持自定义LLM供应商了），Claude Code、OpenCode等。以上的工具在Coding能力效果远大于OpenClaw和Hermes Agent。当然，客观事实是一回事，公司现状是另一回事，咱们只讨论理想情况。

至于说Coding的方式，目前普遍已经进化到vibe Coding为主。也就是代码的修改不局限于代码段的tab补全提示和复制粘贴。而是直接交给AI任务，让他直接完成编辑、编译、调试、测试整套流程。然后人工再介入审核的模式，你用Copilot肯定知道他的Agent模式，就是这样。

最后是关于多卡，其实从你们目前的localLLM的整套逻辑并没有跑起来，所以我个人也不会有什么建设性的意见。还是先以优化为主。最起码你们要先固定一个有实战意义的使用模式，然后再聊优化会比较有建设性一些。

Phuong Ngo

@kop-wang 额，也对。已经有RTX6000PRO了，那让IT迁移迁移系统，慢慢一步一步做优化慢慢尝试和测试，至少先在逻辑上实现跑通，云端和本地两条腿走路。多谢佬耐心提意见。

kop wang

@Phuong-Ngo 过奖了，互相学习，如果有空欢迎开帖分享最终成果。

c0aster

@terry 叫公司买了2张3090 我先来玩一玩，结果坑的是那台旧服务器是r730，riser2的X16是CPU2，只装了CPU1，自费先买了一个riser3

terry

@c0aster 这怎么能自费呢？想办法报销

c0aster

@terry 海鲜市场15元没法走报销了，坑的是这机器装2张卡要在两个riser上，没法nvlink，先跑个27B，再研究下comfyui，尝试下再给领导汇报吧，不然买了不也生产力，背锅了，谢谢，后续已考虑rtx pro 6000

抡锤者

大佬们，中小企业自建本地大模型有没有什么可行的方案？