Qwen3.6 27b & DeepSeek V4 Flash跑Hermes 资料截图，生成网页。

VS Studio

RTX3090

git clone https://github.com/TheTom/llama-cpp-turboquant
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release

llama-cli -m d:\llama.cpp\models\Qwen_Qwen3.6-35B-A3B-Q4_K_M.gguf -ngl 99 --no-mmap --mlock --cache-type-k turbo4 --cache-type-v turbo3 --ctx-size 262144 --flash-attn on

Write me a poem
[ Prompt: 187.8 t/s | Generation: 127.0 t/s ]

请问这个速度是正常吗？35B 的千问有那么快吗？

VS Studio

我知道了，A3B, active 3B, 所以更快。难怪比27B还快。

terry

@pilipala 注册资本都很低，用2年没了，你卡坏了，找京东，你是和京东购买的，它必须保你，你不要管京东怎么处理，它会想办法搞定的。2.2我真没看到，淘宝都2.4，京东第三方2.58

Devin Hi

./llama.cpp/build/bin/llama-server
-m ./models/Qwen3.6-27B-Q4_K_M.gguf
--host 0.0.0.0
--port 8081
--ctx-size 131072
--parallel 1
--cache-type-k q8_0
--cache-type-v q8_0
--flash-attn on
--mlock
--reasoning-budget 0

7900XTX完全可以跑通，而且体感良好

terry

@VS-Studio 35b moe正常。

terry

@Devin-Hi

Chuyao Chen

看到里面说RTX 6000 PRO 才 4.5W-5.5W。我想问下在哪里可以搞到这么便宜的啊。

抡锤者

此主題已被删除！

Dalu Fama

@Chuyao-Chen 骗子哪里

Vivid Vector

@Chuyao-Chen
阉割版的RTX 6000D 84GB 是这个价格

pilipala

@terry 锤哥应该不逛海鲜市场和拼夕夕……

terry

@pilipala 我买不太在乎坏掉的会拼夕夕，淘宝系列现在基本不碰了，服务扯皮。

xping

@Devin-Hi 好像qwen3.6-27b必须开--mmproj 支持视觉路由，不然推理速度有损失，还有您这个配置文件没加-ngl 999把模型全部加载入显存。

yesen19771004

@VS-Studio 很正常，我的amd小主机，780m跑他都有30多 t/s。

Devin Hi

我的模型是Qwen3.6-27B-Q4_K_M.gguf ，即便加了，也无法支持多模态，需要相应的多模态的模型

terry

@Devin-Hi 不会吧，我也用的这个啊，换个其他地方下载看看呢？

wwcd2016

好吧。周末没事，让hermes 配置你说的，一模一样复刻，然后最简单的脚本修改，都出错，当然，他会自己修复。但是：
目前最原始的，5月份的qwen 3.6 27b 4bit量化版，除了速度只有30-40之间，从来没有出这么低级错误。

贴一下000
╭─ Hermes ───────────────────────────────────────────────────────────────────────────────────────────────────────────╮
等等，第17行 \\ 变成四个反斜杠了！VBS 里字符串里的 \ 才代表一个 \。现在写成了 \\，路径会变成 C:\Users\...（双反斜杠），Windows 可能找不到。让我修正：

╰──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯
┊ preparing patch…
┊ patch C:\Users\46049\AppData\Local\hermes\gateway-service\Hermes_Gateway.vbs 0.7s
┊ review diff
a/C:\Users\46049\AppData\Local\hermes\gateway-service\Hermes_Gateway.vbs → b/C:\Users\46049\AppData\Local\hermes\gateway-service\Hermes_Gateway.vbs
@@ -14,4 +14,4 @@
env.Item("PYTHONPATH") = "C:\Users\46049\AppData\Local\hermes\hermes-agent;C:\Users\46049\AppData\Local\hermes\hermes-agent\venv\Lib\site-packages"
End If
sh.CurrentDirectory = "C:\Users\46049\AppData\Local\hermes"
-sh.Run "C:\Users\46049\AppData\Local\hermes\hermes-agent\venv\Scripts\pythonw.exe -m hermes_cli.main gateway run", 0, False
+sh.Run "C:\Users\46049\AppData\Local\hermes\hermes-agent\venv\Scripts\pythonw.exe -m hermes_cli.main gateway run", 0, False
┊ preparing read_file…
┊ read Hermes_Gateway.vbs 0.4s

╭─ Hermes ───────────────────────────────────────────────────────────────────────────────────────────────────────────╮
好，第17行现在是正确的 VBS 语法：sh.Run "C:\Users\46049\AppData\Local\hermes\hermes-agent\venv\Scripts\pythonw.exe -m hermes_cli.main gateway run", 0, False

现在测试一下完整的启动链：

抡锤者

Qwen3.6 27b & DeepSeek V4 Flash跑Hermes 资料截图，生成网页。