来交作业了,华南金牌X99套装+RTX3090Ti+RTX3060双卡装机完毕
-
上周收到华南金牌的板U套装和Z40机箱+长城1250W电源,然后用自己旧电脑上的拆机件开始装机。
内存条4条插满(32x2+16x2),1T的SSD,3060怼上,重装全新的windows10,结果点不亮。
不知道是不是我的3060的问题,HDMI不行,换DP亮了。今天收到RTX3090Ti,双卡怼上,开机


开机正常,但是上周装的nividia显卡驱动丢了。重装驱动,结果发现3090不认。考虑到是不是槽位不对,将上图中两张卡的位置做了对调。重新开机,认到了3090,但是装完驱动后,显示器黑屏。插入3060的DP口,显示器正常显示。但是在任务管理器中看不到3090,只有3060。
以为买的3090Ti翻车了,本着死马当活马医,开始怼DeepSeek......
然后得知,要调整BIOS中的设置:


运气不错,BIOS调整很顺利,并且开机后都没有提示我需要重装显卡驱动,就一切正常。


为了尽快验证新买的卡是能用的,下载LM Studio,加载unsloth\Qwen3.6-27B-GGUF(双卡顺序加载)
用一个我常用的测试题进行测试,结果只有不到20tokens/s
在LM Studio中关掉3060,只用3090单卡加载Qwen3.6-27B-GGUF,同样的问题,39tokens/s
====================================================
今天先到这里,明天开始折腾llama.cpp
@joker_chang 你3090单卡跑就可以了,没必要分层。24G N卡看下论坛大神们的帖子,上下文能跑满,研究下turboquant MTP即可。
-
@九门奇人 我之前在老机器上跑过(64G物理内存,3060 12G显存,windows10),llama.cpp加载Qwen3.6-35B-A3B-UD-Q4_K_M.gguf,8tokens/s;Qwen3.6-27B-Q4_K_M.gguf只有零点几token/s
-
我因为nvlink 整个预算超了
整体弄到来包裹邮寄都2万了...
心滴血
希望 拿到 机器 可以回点血 -
@暧昧光影 windows10下llama.cpp是编译好了,但是今天的结果很不理想。不管是单3090还是3090+3060,都只能跑到个位数tokens/s
效果还不如前几天用LM Studio加载unsloth非MTP的版本
-
@暧昧光影 windows10下llama.cpp是编译好了,但是今天的结果很不理想。不管是单3090还是3090+3060,都只能跑到个位数tokens/s
效果还不如前几天用LM Studio加载unsloth非MTP的版本
@暧昧光影 windows10下llama.cpp是编译好了,但是今天的结果很不理想。不管是单3090还是3090+3060,都只能跑到个位数tokens/s
效果还不如前几天用LM Studio加载unsloth非MTP的版本
试试vllm
-
@暧昧光影 windows10下llama.cpp是编译好了,但是今天的结果很不理想。不管是单3090还是3090+3060,都只能跑到个位数tokens/s
效果还不如前几天用LM Studio加载unsloth非MTP的版本
@joker_chang https://github.com/noonghunna/club-3090
照这个抄作业,不过前提是装linux,3090用llama.cpp方案,最低也能跑到20 tokens/s。用vllm方案可以跑到50+。
玩大模型还是别用windows了
-
@joker_chang https://github.com/noonghunna/club-3090
照这个抄作业,不过前提是装linux,3090用llama.cpp方案,最低也能跑到20 tokens/s。用vllm方案可以跑到50+。
玩大模型还是别用windows了
@Ray-Wang 谢谢您的回复,我先折腾几天,不行就重装Ubuntu系统
-
折腾了几天,踩了无数坑:
1、windows10的电源一定要用卓越性能,不然GPU的频率根本跑不起来,会被限制到180w左右
2、cmake编译llama.cpp不要抄作业(反正我本人没搞定,自己编译的能跑但是最多不到10tokens/s),直接用官方https://github.com/ggml-org/llama.cpp/releases的版本,3090下Windows x64 (CUDA 12)
3、官方编译的版本能Qwen3.6 27B跑到35tokens/s,不过MTP没什么效果,我跑unsloth的MTP版本Qwen3.6 27B,也就只能跑到37tokens/s

-
@sirwang 等明天装好双卡(物理上3060没插),双卡测试一下,再折腾linux
-
折腾了几天,踩了无数坑:
1、windows10的电源一定要用卓越性能,不然GPU的频率根本跑不起来,会被限制到180w左右
2、cmake编译llama.cpp不要抄作业(反正我本人没搞定,自己编译的能跑但是最多不到10tokens/s),直接用官方https://github.com/ggml-org/llama.cpp/releases的版本,3090下Windows x64 (CUDA 12)
3、官方编译的版本能Qwen3.6 27B跑到35tokens/s,不过MTP没什么效果,我跑unsloth的MTP版本Qwen3.6 27B,也就只能跑到37tokens/s


这是我自己编译的llama.cpp
同样的模型,同样的硬件,同样的启动脚本,差别简直了......

这是https://github.com/ggml-org/llama.cpp/releases/download/b9305/llama-b9305-bin-win-cuda-12.4-x64.zip的
哎~
-
折腾了几天,踩了无数坑:
1、windows10的电源一定要用卓越性能,不然GPU的频率根本跑不起来,会被限制到180w左右
2、cmake编译llama.cpp不要抄作业(反正我本人没搞定,自己编译的能跑但是最多不到10tokens/s),直接用官方https://github.com/ggml-org/llama.cpp/releases的版本,3090下Windows x64 (CUDA 12)
3、官方编译的版本能Qwen3.6 27B跑到35tokens/s,不过MTP没什么效果,我跑unsloth的MTP版本Qwen3.6 27B,也就只能跑到37tokens/s

@joker_chang 你MTP没设置好, 你看看我的帖子
-
折腾了几天,踩了无数坑:
1、windows10的电源一定要用卓越性能,不然GPU的频率根本跑不起来,会被限制到180w左右
2、cmake编译llama.cpp不要抄作业(反正我本人没搞定,自己编译的能跑但是最多不到10tokens/s),直接用官方https://github.com/ggml-org/llama.cpp/releases的版本,3090下Windows x64 (CUDA 12)
3、官方编译的版本能Qwen3.6 27B跑到35tokens/s,不过MTP没什么效果,我跑unsloth的MTP版本Qwen3.6 27B,也就只能跑到37tokens/s

@joker_chang 3090跑qwen27b,mtp理论上应该55-60t/s。
你可以丢给AI让他帮你改一下启动代码。 -
@ezios
1172.52.843.679 I slot print_timing: id 0 | task 23268 | prompt eval time = 2163.02 ms / 1254 tokens ( 1.72 ms per token, 579.74 tokens per second)这直接显示了prompt eval的速度。所以prefill速度是处理1254个token用了2163.02 ms,即1.72毫秒每token,或579.74 tokens/s。

-
@joker_chang 3090跑qwen27b,mtp理论上应该55-60t/s。
你可以丢给AI让他帮你改一下启动代码。@rock-shi 经过论坛大神的指点(--ubatch-size 1024),和自己不断的折腾,能达到这个值了。
启动参数:
--host 0.0.0.0 ^
--port 3527 ^
--reasoning off ^
--n-gpu-layers -1 ^
--ctx-size 131072 ^
--batch-size 2048 ^
--ubatch-size 1024 ^
--flash-attn on ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--spec-type draft-mtp,ngram-mod ^
--spec-draft-n-max 3 ^
--spec-ngram-mod-n-max 5 ^
--spec-ngram-mod-n-min 3 ^
--temp 0.7 ^
--parallel 1 -
@rock-shi 经过论坛大神的指点(--ubatch-size 1024),和自己不断的折腾,能达到这个值了。
启动参数:
--host 0.0.0.0 ^
--port 3527 ^
--reasoning off ^
--n-gpu-layers -1 ^
--ctx-size 131072 ^
--batch-size 2048 ^
--ubatch-size 1024 ^
--flash-attn on ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--spec-type draft-mtp,ngram-mod ^
--spec-draft-n-max 3 ^
--spec-ngram-mod-n-max 5 ^
--spec-ngram-mod-n-min 3 ^
--temp 0.7 ^
--parallel 1将启动脚本和运行日志丢给云端大模型(Qwen3.7-Max)分析,被告知:
一、“日志显示 ngram-mod 的接受率为 0(#acc drafts = 0, #acc tokens = 0),但它仍占用了 16MB 显存和每次推理的检查开销。”
移除:
【
ngram-mod ^
--spec-ngram-mod-n-max 5 ^
--spec-ngram-mod-n-min 3
】二、启用 --kv-unified 以激活 idle slots 缓存
日志警告:【W srv init: --cache-idle-slots requires --kv-unified, disabling】三、增大 Host Prompt Cache 上限
当前仅 8192 MiB(默认值),对于 coding 场景(大量重复系统提示词/代码库前缀)过于保守。因此增加相关参数:【
--cache-ram 32768 ^
--kv-unified
】修订启动参数:
--reasoning off ^
--n-gpu-layers -1 ^
--ctx-size 131072 ^
--batch-size 2048 ^
--ubatch-size 1024 ^
--flash-attn on ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--spec-type draft-mtp ^
--spec-draft-n-max 3 ^
--temp 0.7 ^
--parallel 1 ^
--cache-ram 32768 ^
--kv-unified感觉修改后,效果并不明显(没有提高也没有下降,正负值在1%上下)......