我知道了,A3B, active 3B, 所以更快。难怪比27B还快。
VS Studio
@VS Studio
-
Qwen3.6 27b & DeepSeek V4 Flash跑Hermes 资料截图,生成网页。 -
Qwen3.6 27b & DeepSeek V4 Flash跑Hermes 资料截图,生成网页。RTX3090
git clone https://github.com/TheTom/llama-cpp-turboquant
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Releasellama-cli -m d:\llama.cpp\models\Qwen_Qwen3.6-35B-A3B-Q4_K_M.gguf -ngl 99 --no-mmap --mlock --cache-type-k turbo4 --cache-type-v turbo3 --ctx-size 262144 --flash-attn on
Write me a poem
[ Prompt: 187.8 t/s | Generation: 127.0 t/s ]请问这个速度是正常吗?35B 的千问有那么快吗?