被抡锤者种草后，我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器

Ivan Yin

llama.cpp有更新，与mtp性能相关，我编译新版本后比较一下
截图 2026-06-13 14-34-33.png

在平时使用时，没有什么区别，q8依然还是43左右t/s
截图 2026-06-13 16-58-07.png 截图 2026-06-13 16-58-11.png

williamlouis

@applejuice 找个你本地的能干的工作室给你搞。换显存自己搞什么？不过升级意义很大。变32G就是神器一件了。

williamlouis

京东我看见有以旧换新的商铺就你把16G给他。它直接给你一块 32G的。变相的少折腾升级。当然到手的就是别人的16G魔改后的到你手了。你的后续也是魔改了给别人。

Ivan Yin

@williamlouis 说:

@applejuice 找个你本地的能干的工作室给你搞。换显存自己搞什么？不过升级意义很大。变32G就是神器一件了。

这卡我还想留着打游戏呢，哈哈。稳定第一，干活交给4090d好了，不能把风险都放在同一个魔改卡的篮子里。原装三风扇的4080s无论怎么说都是可以长期稳定使用的，哪怕像老特4090d出问题，4090能干的所有活4080都能降低质量接续上。

Ivan Yin

更正上面的测试，编写汉语文章是43t/s,但是coding的速度远大于这个，稳定在60左右，完全是可用状态，没有必要为了节省显存或追求最高速度，降低精度了

截图 2026-06-13 21-41-56-s.jpg
截图 2026-06-13 21-44-30.png

截图 2026-06-13 21-45-40.png

Bryant Wu

感谢细致的分享。小白敬上

你的名字我的名字都是一样的

可以关掉桌面UI，也可以考虑换一块5700G集显负担桌面UI的性能。感觉5700G也足够了，除非用X3DCPU才会有所区别，延迟会好一点。

Ivan Yin

@你的名字我的名字都是一样的说:

可以关掉桌面UI，也可以考虑换一块5700G集显负担桌面UI的性能。感觉5700G也足够了，除非用X3DCPU才会有所区别，延迟会好一点。

也是个思路，现在9x00x系列的amd也带核显了，如果是新amd平台或者带核显的intel平台（非e5），确实可以这样操作

joker_chang

@Ivan-Yin

【--spec-type draft-mtp ^
--spec-draft-n-max 3 ^】
实施效果呢......

我的3090跑Qwen3.6-27B-unslothMTP-Q4_K_M.gguf，Hermes coding能稳定60~70t/s；最快能到80多t/s

当然，受限于显存大小，只能
【
--ctx-size 131072 ^
--batch-size 4096^
--ubatch-size 2048 ^
--flash-attn on ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
】

joker_chang

刚才试用了lordx64\Qwable-v1.IQ4_XS.gguf

启动参数【
--reasoning off ^
--n-gpu-layers -1 ^
--ctx-size 262144 ^
--batch-size 4096^
--ubatch-size 2048 ^
--flash-attn on ^
--cache-type-k q8_0 ^
--cache-type-v q8_0 ^
--temp 0.7 ^
--parallel 1 ^
--kv-unified ^
--mlock ^
--jinja
】

生辰tokens能跑到120多/秒；但是这个模型有些蠢，我放弃了。

nami ryuu

@ivan-yin 我想问你是在哪家买的4090d 48g,声音大吗？

williamlouis

@nami-ryuu 大。峰值工作噪音过75分贝