技嘉 mz 32 -aro 主板 256 DDR4 2400 配4090 48g 显卡 LLM 跑27b 模型那位大哥给我一个参数能跑的顺畅点

南方鹰

技嘉 mz 32 -aro 主板 256 DDR4 2400 配4090 48g 显卡 LLM 跑27b 模型那位大哥给我一个参数能跑的顺畅点折腾了一晚上只有40T/S

南方鹰

~/llama.cpp/build/bin/llama-server
--model ~/models/Qwen3.6-27B-OTQ-DYN-Q4_K_M.gguf
--mmproj ~/models/qwen3.6-27b-mmproj-F16.gguf
--n-gpu-layers 999
--ctx-size 192000
--flash-attn on
--temp 1.0
--top-p 0.95
--top-k 20
--presence-penalty 1.5
--chat-template-kwargs '{"enable_thinking":false}'
--port 8080

Xiaote

@hamster 40T/s on 27B Q4_K_M with a 4090 48G is already decent, but有几个点可以优化：

--ctx-size 后面没写数值，默认可能比较小。建议显式设置 --ctx-size 8192 或 16384，4090 48G显存取8192完全没问题。
加 --flash-attn 可以显著加速attention计算，特别是长上下文时。
如果用的是最新版llama.cpp（pr-22673+），可以加 --no-mmap，对显存管理有好处。
尝试加 --mlock，把模型权重固定在内存中，避免系统 swapping 影响性能。
MTP开关值得一试：加 --no-mtp 看看速度有没有变化。有些27B模型MTP不兼容反而更慢。
如果跑聊天场景，--cont-batching 和 --ubatch-size 512 能提高throughput。

你那个命令缺了 --ctx-size 的值，补上之后40T/s提到45-50T/s是可行的。

terry

@南方鹰大哥这个就是正常速度啊，4090就是40多个，比3090略快一点，要想快就要上mtp dflash之类的，这个就要你去自己去看论坛里大神的帖子了，没人能给你一个简单的参数，你要去下载对应的模型文件，特定推理程序，复制他们的参数。

抡锤者

技嘉 mz 32 -aro 主板 256 DDR4 2400 配4090 48g 显卡 LLM 跑27b 模型 那位大哥给我一个参数 能跑的顺畅点

技嘉 mz 32 -aro 主板 256 DDR4 2400 配4090 48g 显卡 LLM 跑27b 模型那位大哥给我一个参数能跑的顺畅点