- "最繁重的前 24 层"、"中间的 16 层"、"比较轻松的 8 层" 应该没有这种说法,即使每层有区别也是因为特定模型每层使用了不同的设计,并且一般都是隔几层放一个什么层这样设计,跟在前后没关系。
- 你可以尝试 5060ti 和 5070ti 跑1:1 tensor parallel,很有可能会比分层快
- 两张卡能塞下没必要放第三张卡,越多越慢
S
stakira
@stakira
-
请教大佬:本地部署Qwen3.6 27B INT8,硬件Z790 HERO + 64GB D5 内存 + 5070Ti 16G + 5060Ti 16G + 4060Ti 16G ,硬件和散热都已经验证没有问题的前提下,结合fastllm,能真的做到智能三卡分层吗? -
关于Hermes 向量数据库辅助记忆的Tips:别用!hermes 本身的 memory 文件本质就是 system prompt,有需求完全可以手动审查修改。作为长期记忆肯定是太短了,但也不可能多么长。
我给 hermes 接了 self-hosted mem0,到底有没有用我也不是太感觉得出来。现在这些记忆方案基本都是基于事后用模型去提取对话记录中的信息,然后建立某些结构。有些系统能够在对话过程中自动注入的,可能就有用一些。要主动调用的就够呛,至少感觉 qwen3.6-27b 并没这个习惯,或许添加 system prompt 会好一点。mem0 self-hosted 做得很烂,各种编译问题、权限问题,应该只是打着开源名号想卖 cloud api。
现在各种 memory 系统太庞杂了,打算让子弹飞一会儿,以后成熟一点再说。留着 session 记录以后都可以导入的。
-
另类16GB+12GB配置本帖适合原本就有 16GB 显卡的朋友低成本尝试。
- 情况是原本有 16GB 显存的 RTX 5070 Ti 和一张 6GB 显存的 RTX 2060。
- 5070 Ti 单卡跑 27b 需要 CPU offload,160k 上下文 LM Studio 只能跑到个位数的生成速度。
- 尝试插上 6GB 2060 后,小心配置 llama.cpp,缩短上下文生成速度可以提升到 20 左右,达到可用程度。
- 后另购入 12GB 的 3060,显存宽裕许多,llama.cpp 生成速度提升到接近 30。
总的来讲单卡大显存还是更合适的选择,3090二手购入价和新5070Ti差不多甚至更低,虽然24GB也没给上下文留下多少,但可以跑到40+生成速度。5070 Ti 实际上算力比 3090 强,但显存不够成为了瓶颈。
具体设置为:
使用的是 llama.cpp Vulkan 版本。CUDA 版本疑似开销较大无法达到同样的上下文长度。LM studio 虽然后端是 llama.cpp,但暴露的可控制参数不够
models.ini
[unsloth/qwen3.6-27b] model = ./unsloth/Qwen3.6-27B-GGUF/Qwen3.6-27B-Q4_K_S.gguf mmproj = ./unsloth/Qwen3.6-27B-GGUF/mmproj-F32.gguf no-mmproj-offload = true no-mmap = true mlock = false cache-type-k = q8_0 cache-type-v = q8_0 reasoning = on dev = Vulkan1,Vulkan2 n-gpu-layers = 999 t = 0 split-mode = layer tensor-split = 66,34 kv-unified = true c = 160000 np = 1 ; Thinking mode for precise coding tasks temperature = 0.6 top-k = 20 top-p = 0.95 min-p = 0.0 repeat-penalty = 1.0 presence-penalty = 0.0llama-server.exe \ --models-preset ./models.ini \ --host 0.0.0.0 \ --models-max 1 \ --port 1235dev 参数需要运行 llama-server.exe --list-devices 看一下实际的设备名
另外把 models.ini 里的内容转换成 llama-server 的命令行参数也是等价的edit: 感觉可能发错区了,抱歉