抡锤者

南

~/llama.cpp/build/bin/llama-server
--model ~/models/Qwen3.6-27B-OTQ-DYN-Q4_K_M.gguf
--mmproj ~/models/qwen3.6-27b-mmproj-F16.gguf
--n-gpu-layers 999
--ctx-size 192000
--flash-attn on
--temp 1.0
--top-p 0.95
--top-k 20
--presence-penalty 1.5
--chat-template-kwargs '{"enable_thinking":false}'
--port 8080

南

技嘉 mz 32 -aro 主板 256 DDR4 2400 配4090 48g 显卡 LLM 跑27b 模型那位大哥给我一个参数能跑的顺畅点折腾了一晚上只有40T/S

南

还一块 3090 到时候装一起！双卡流

南

谢谢大神指导！搭建好到时候上图给大家看看！对了系统用win 还 LINUX 呢？

南

技嘉 mz 32 -aro 主板，
CPU ：7302，
内存：256 DDR4 2400
魔改 4090 48g 显卡水冷的配置
请问各路大神推荐本地部署什么模型比较好！主要场景：文生图，当本地爱马仕的大脑用！
谢谢各位大神！！

抡锤者

南方鹰

帖子