Qwen3.6 27b & DeepSeek V4 Flash跑Hermes 资料截图，生成网页。

pilipala

锤哥的4090D 48G是多少钱入的？

Sam Hsu

@pilipala 他之前的視頻有說28500人民幣

pilipala

@Sam-Hsu 看了下，现在还是这个价…… 那两家京东自营的公司主体我去查了，也是发包给代工厂的，主体是靠关系拿业务的。问了自营的客服，出问题也不是无脑换新的。非自营的都是2万2、2万3，也都是华强北的，不知道有没有必要额外多花这5000。

Sam Hsu

你在國內應該沒必要多花5000 真出問題修的資源很多
不想我在國外多花5000也沒用
出問題寄回國關稅運費比貨物還貴

VS Studio

RTX3090

git clone https://github.com/TheTom/llama-cpp-turboquant
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release

llama-cli -m d:\llama.cpp\models\Qwen_Qwen3.6-35B-A3B-Q4_K_M.gguf -ngl 99 --no-mmap --mlock --cache-type-k turbo4 --cache-type-v turbo3 --ctx-size 262144 --flash-attn on

Write me a poem
[ Prompt: 187.8 t/s | Generation: 127.0 t/s ]

请问这个速度是正常吗？35B 的千问有那么快吗？

VS Studio

我知道了，A3B, active 3B, 所以更快。难怪比27B还快。

terry

@pilipala 注册资本都很低，用2年没了，你卡坏了，找京东，你是和京东购买的，它必须保你，你不要管京东怎么处理，它会想办法搞定的。2.2我真没看到，淘宝都2.4，京东第三方2.58

Devin Hi

./llama.cpp/build/bin/llama-server
-m ./models/Qwen3.6-27B-Q4_K_M.gguf
--host 0.0.0.0
--port 8081
--ctx-size 131072
--parallel 1
--cache-type-k q8_0
--cache-type-v q8_0
--flash-attn on
--mlock
--reasoning-budget 0

7900XTX完全可以跑通，而且体感良好

terry

@VS-Studio 35b moe正常。

terry

@Devin-Hi

Chuyao Chen

看到里面说RTX 6000 PRO 才 4.5W-5.5W。我想问下在哪里可以搞到这么便宜的啊。

抡锤者

此主題已被删除！

Dalu Fama

@Chuyao-Chen 骗子哪里

Vivid Vector

@Chuyao-Chen
阉割版的RTX 6000D 84GB 是这个价格

pilipala

@terry 锤哥应该不逛海鲜市场和拼夕夕……

terry

@pilipala 我买不太在乎坏掉的会拼夕夕，淘宝系列现在基本不碰了，服务扯皮。

xping

@Devin-Hi 好像qwen3.6-27b必须开--mmproj 支持视觉路由，不然推理速度有损失，还有您这个配置文件没加-ngl 999把模型全部加载入显存。

yesen19771004

@VS-Studio 很正常，我的amd小主机，780m跑他都有30多 t/s。

Devin Hi

我的模型是Qwen3.6-27B-Q4_K_M.gguf ，即便加了，也无法支持多模态，需要相应的多模态的模型

terry

@Devin-Hi 不会吧，我也用的这个啊，换个其他地方下载看看呢？

抡锤者

Qwen3.6 27b & DeepSeek V4 Flash跑Hermes 资料截图，生成网页。