RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S
-
我也是终于跑通了,不过是使用LM STUDIO跑通的,损失了不少性能,35B目前PREFILL大概500ts,79T/S我觉得这个速度很慢,如果27B最终能到45T/S的话,我估计也只能算是勉强可用,我有的不太相信19/TS能干什么活
@vosrock 我认为35B你那个配置还可以优化,不应该只有500,Hermes我刚试了2080ti,35B很快就回答了,后台扫了一眼日志,应该是上千的。我是2080ti,并且是用USB4接的显卡,输出只有45tokens/s
不过我是llamacpp跑的:
version = 1 [*] parallel = 1 n-gpu-layers = 999 ctx-size = 131072 predict = 8192 flash-attn = on cache-type-k = q4_0 cache-type-v = q4_0 threads = 8 threads-batch = 16 batch-size = 8192 ubatch-size = 512 jinja = true reasoning = off reasoning-budget = 0 cache-prompt = true cache-reuse = 256 kv-offload = true kv-unified = true context-shift = true no-mmap = true temp = 0.7 top-p = 0.9 top-k = 40 min-p = 0.0 presence-penalty = 0.0 repeat-penalty = 1.03 load-on-startup = true stop-timeout = 10 [default] model = C:\models\Qwopus3.6-35B-A3B-v1-APEX-MTP-I-Compact.gguf spec-type = draft-mtp spec-draft-n-max = 2 cache-type-k-draft = q4_0 cache-type-v-draft = q4_0 -
终于是搞定了,.\hermeswork\llama.cpp\build\bin\Release\llama-server.exe -m D:\hermeswork\models\Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-I-Compact.gguf
-c 262144
-ngl 60-t 20
-tb 14-b 4096
-ub 256--temp 0.7
--top-p 0.9--top-k 40
--min-p 0.0--presence-penalty 1.0
--repeat-penalty 1.05--flash-attn on
--jinja--cache-type-k q4_0
--cache-type-v q4_0--reasoning off
--reasoning-budget 0--host 0.0.0.0
--port 11434--kv-offload
--kv-unified--mmap
--mlock `
这是最终的配置
我也不太懂看,貌似PREFILL能有1600多? -
我的编译总是出问题。后来看了build.md,用Visual Studio 17 2022,一次编译成功,命令是cmake -B build -G "Visual Studio 17 2022" -DCMAKE_BUILD_TYPE=Release -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=86 -DLLAMA_BUILD_SERVER=ON -DLLAMA_BUILD_ALL_EXAMPLES=OFF -DLLAMA_BUILD_TESTS=OFF -DLLAMA_BUILD_EXAMPLES=OFF
-
系统 取消固定了该主题
-
@terry 哈哈,惭愧呀.我哪有什么部署过程啊,无非就是把你这论坛两个帖子发给AI,要他仔细看一遍.然后学你的样使劲骂deepseek v4 flash.让他帮我全部搞定,我只监工.完工后体验是真好,让我不再焦虑64k上下文了.其余变化不大,显存占用比以前少了一点点.参考的另一个帖子是大模型16G卡的春天,但不是同样的llama.cpp.
-
T terry 固定了该主题


自己修理自己进行中





