被抡锤者种草后,我用 X99 + 4090D 48G 搭了一台本地 LLM 服务器
-
京东我看见 有以旧换新的商铺 就你把16G给他。它直接给你一块 32G的。变相的少折腾升级。当然到手的就是别人的16G魔改后的到你手了。你的后续也是魔改了给别人。
-
@applejuice 找个你本地的能干的工作室给你搞。换显存 自己搞什么?不过升级意义很大。变32G就是神器一件了。
@applejuice 找个你本地的能干的工作室给你搞。换显存 自己搞什么?不过升级意义很大。变32G就是神器一件了。
这卡我还想留着打游戏呢,哈哈。稳定第一,干活交给4090d好了,不能把风险都放在同一个魔改卡的篮子里。原装三风扇的4080s无论怎么说都是可以长期稳定使用的,哪怕像老特4090d出问题,4090能干的所有活4080都能降低质量接续上。
-
可以关掉桌面UI,也可以考虑换一块5700G集显负担桌面UI的性能。感觉5700G也足够了,除非用X3DCPU才会有所区别,延迟会好一点。
-
可以关掉桌面UI,也可以考虑换一块5700G集显负担桌面UI的性能。感觉5700G也足够了,除非用X3DCPU才会有所区别,延迟会好一点。
-
,系统 取消固定了此主题
-
【--spec-type draft-mtp ^
--spec-draft-n-max 3 ^】
实施效果呢......我的3090跑Qwen3.6-27B-unslothMTP-Q4_K_M.gguf,Hermes coding能稳定60~70t/s;最快能到80多t/s
当然,受限于显存大小,只能
【
--ctx-size 131072 ^
--batch-size 4096^
--ubatch-size 2048 ^
--flash-attn on ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
】
-
刚才试用了lordx64\Qwable-v1.IQ4_XS.gguf
启动参数【
--reasoning off ^
--n-gpu-layers -1 ^
--ctx-size 262144 ^
--batch-size 4096^
--ubatch-size 2048 ^
--flash-attn on ^
--cache-type-k q8_0 ^
--cache-type-v q8_0 ^
--temp 0.7 ^
--parallel 1 ^
--kv-unified ^
--mlock ^
--jinja
】生辰tokens能跑到120多/秒;但是这个模型有些蠢,我放弃了。
-
@nami-ryuu 大。峰值工作噪音过75分贝


