抡锤者

Phuong Ngo

@kop-wang 额，也对。已经有RTX6000PRO了，那让IT迁移迁移系统，慢慢一步一步做优化慢慢尝试和测试，至少先在逻辑上实现跑通，云端和本地两条腿走路。多谢佬耐心提意见。

Phuong Ngo

@kop-wang
1.用openclaw是我司老板过年听说龙虾很厉害，没有怎么仔细研究就想要在本地搭建，交给公司的IT全权负责搭建，也没有研究诸如用claude code、opencode等调用其他模型的API的路子。
2.目前的现状是公司的IT部署什么模型，我们就用什么模型，也没有什么真正的产出，顶多就是截取一些代码片段，让agent分析这段代码哪里出现问题了，改改，就这样了。其实主要还是以云端的AI为主，用的最多的就是微软的copilot，因为能在vscode中直接进行代码补全等操作，方便省事。目前我司在AI编程领域处于探索和摸索阶段。
3.明白，系统改迁移还是迁移。
4.对于多卡部署，佬有什么建议，尽管提出来，洗耳恭听。

Phuong Ngo

多卡部署可以解决并发的难题么？

Phuong Ngo

我司也有类似的需求，公司要求满足30并发需求，主要用LLM进行代码生成，测试用例编写。已采购RTXpro6000 96G的，主机内存64G，但是现在我司的半吊子IT跑模型用的是windows系统，上面跑的模型是GPT 122B，qwen 3.5 35BA3B的模型，开放内网地址让大家用openclaw去调用，现在很难满足30调用，连并发10都做不到，也想问问这种情况如果迁移到ubuntu下，再好好优化一下能否有比较明显的改善，例如全员从openclaw迁移到Hermes Agent。

Phuong Ngo

最新进展
7900XTX和ubuntu的环境已经搭起来了，老特说的没错，128KQ8确实能跑起来，最后给到了160KQ8,显存占用91%
，用hermes agent实测28token/s，本地养hermes确实够用了。hermes折腾过了，返回来在折腾comfyUI生图生视频。折腾这些的初衷不为别的，就是让自己找点事干，买了macbookpro之后本地模型跑起来速度确实慢，有点受不了了，刚好碰到老特了，燃起希望了，目前看来6000的XTX真是太夯了。先在论坛抄各位大佬的作业先玩起来。

Phuong Ngo

@terry 我买的xtx到了，已经装了ubuntu，部署了qwen 3.6 27B模型，hermes也已经配好了，有个问题就是现在显存占用21G左右，给hermes设的上下文是64K，emm最大上下文能到多少？

Phuong Ngo

@mark 等我买的xtx显卡回来测试一下，看看是模型问题还是硬件带宽就是不行。

Phuong Ngo

@terry 好的，老特。我下单了xtx，京东6089，三年质保，准备在旧的windows主机上跑个Ubuntu，装个双系统先玩玩，后面再买洋垃圾在攒个主机。macbookpro暂时也先不卖了，多个折腾的硬件吧，m3max不跑大模型性能还是非常强的，就是可惜了128G的大内存了。

Phuong Ngo

补充一点，自己还有一台win主机，配置是12600KF+RTX3080 10G，这个主机看看能不能用起来，或者换显卡，再折腾。

Phuong Ngo

【环境】

设备：MacBook Pro 16" M3 Max (14C CPU + 40C GPU)
内存：128GB 统一内存
存储：8TB SSD
系统：macOS 15.6

【目标】

想在本地搭建一套可长期运行的 AI 工作流，主要用途：

LLM 推理：跑 27B 级稠密模型（如 Qwen3.5-27B）作 Hermes Agent 后端，要求低延迟、可并发
文生图：ComfyUI 工作流，非商用，纯个人玩，能玩起来比什么都重要
数字人/视频：轻量级尝试，不追求实时，先玩起来

【已尝试】

通过 Ollama 部署过 Qwen3.5-27B，但感觉响应极慢，每次提问都有明显 "thinking" 时间
了解过 MLX 框架，尚未深入测试 4bit 量化版本的实际 token/s
考虑过卖掉 Mac 换 RTX 3080 20G / 7900XTX，但舍不得统一内存的带宽优势

希望折腾过的老哥给点建议，多谢多谢。

抡锤者

Phuong Ngo

帖子

【环境】

【目标】

【已尝试】