-
RTX3090
git clone https://github.com/TheTom/llama-cpp-turboquant
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Releasellama-cli -m d:\llama.cpp\models\Qwen_Qwen3.6-35B-A3B-Q4_K_M.gguf -ngl 99 --no-mmap --mlock --cache-type-k turbo4 --cache-type-v turbo3 --ctx-size 262144 --flash-attn on
Write me a poem
[ Prompt: 187.8 t/s | Generation: 127.0 t/s ]请问这个速度是正常吗?35B 的千问有那么快吗?
-
RTX3090
git clone https://github.com/TheTom/llama-cpp-turboquant
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Releasellama-cli -m d:\llama.cpp\models\Qwen_Qwen3.6-35B-A3B-Q4_K_M.gguf -ngl 99 --no-mmap --mlock --cache-type-k turbo4 --cache-type-v turbo3 --ctx-size 262144 --flash-attn on
Write me a poem
[ Prompt: 187.8 t/s | Generation: 127.0 t/s ]请问这个速度是正常吗?35B 的千问有那么快吗?
-
@Sam-Hsu 看了下,现在还是这个价…… 那两家京东自营的公司主体我去查了,也是发包给代工厂的,主体是靠关系拿业务的。问了自营的客服,出问题也不是无脑换新的。非自营的都是2万2、2万3,也都是华强北的,不知道有没有必要额外多花这5000。
-
T terry 被引用 于这个主题
-
RTX3090
git clone https://github.com/TheTom/llama-cpp-turboquant
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Releasellama-cli -m d:\llama.cpp\models\Qwen_Qwen3.6-35B-A3B-Q4_K_M.gguf -ngl 99 --no-mmap --mlock --cache-type-k turbo4 --cache-type-v turbo3 --ctx-size 262144 --flash-attn on
Write me a poem
[ Prompt: 187.8 t/s | Generation: 127.0 t/s ]请问这个速度是正常吗?35B 的千问有那么快吗?
@VS-Studio 35b moe正常。
-
./llama.cpp/build/bin/llama-server
-m ./models/Qwen3.6-27B-Q4_K_M.gguf
--host 0.0.0.0
--port 8081
--ctx-size 131072
--parallel 1
--cache-type-k q8_0
--cache-type-v q8_0
--flash-attn on
--mlock
--reasoning-budget 07900XTX完全可以跑通,而且体感良好
-
看到里面说RTX 6000 PRO 才 4.5W-5.5W。 我想问下在哪里可以搞到这么便宜的啊。
-
看到里面说RTX 6000 PRO 才 4.5W-5.5W。 我想问下在哪里可以搞到这么便宜的啊。
-
看到里面说RTX 6000 PRO 才 4.5W-5.5W。 我想问下在哪里可以搞到这么便宜的啊。
@Chuyao-Chen 骗子哪里
-
看到里面说RTX 6000 PRO 才 4.5W-5.5W。 我想问下在哪里可以搞到这么便宜的啊。
@Chuyao-Chen
阉割版的RTX 6000D 84GB 是这个价格 -
@pilipala 注册资本都很低,用2年没了,你卡坏了,找京东,你是和京东购买的,它必须保你,你不要管京东怎么处理,它会想办法搞定的。2.2我真没看到,淘宝都2.4,京东第三方2.58
-
T terry 从 LLM讨论区 移动了该主题
-
./llama.cpp/build/bin/llama-server
-m ./models/Qwen3.6-27B-Q4_K_M.gguf
--host 0.0.0.0
--port 8081
--ctx-size 131072
--parallel 1
--cache-type-k q8_0
--cache-type-v q8_0
--flash-attn on
--mlock
--reasoning-budget 07900XTX完全可以跑通,而且体感良好
-
RTX3090
git clone https://github.com/TheTom/llama-cpp-turboquant
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Releasellama-cli -m d:\llama.cpp\models\Qwen_Qwen3.6-35B-A3B-Q4_K_M.gguf -ngl 99 --no-mmap --mlock --cache-type-k turbo4 --cache-type-v turbo3 --ctx-size 262144 --flash-attn on
Write me a poem
[ Prompt: 187.8 t/s | Generation: 127.0 t/s ]请问这个速度是正常吗?35B 的千问有那么快吗?
@VS-Studio 很正常,我的amd小主机,780m跑他都有30多 t/s。
-
M mraksugar 被引用 于这个主题
