版主7900XTX 24G 蓝宝石白金版折腾日记。折腾过程从入手到成功全过程。部分版主个人开发架构分享。

williamlouis

装上一个。测试智力8/10 。可以接受的范围。
模型

Qwen3.6-27B-Q4_K_M.gguf（非 MTP 版）
来源: unsloth/Qwen3.6-27B-GGUF
大小: 16 GB，VRAM 占用 ~18 GB


启动参数

HSA_OVERRIDE_GFX_VERSION=11.0.0

llama-server \
    -m Qwen3.6-27B-Q4_K_M.gguf \
    -c 16384 \
    --parallel 1 \
    -ngl 99 \
    -b 512 \
    -ub 256 \
    --no-warmup \
    --host 0.0.0.0 --port 8081 \
    --temp 0.7 --repeat-penalty 1.1 --top-p 0.9 \
    --reasoning off


显卡驱动

GPU:   AMD Radeon RX 7900 XTX (gfx1100, 24 GB)
ROCm:  7.2.1
HIP:   7.2.53211
驱动:  3581.0 (HSA1.1, LC)
llama.cpp: b9544 (ggml 0.13.1, HIP 后端)


速度

生成: ~25 tok/s（126 tokens / 5s）
上下文: 16384 tokens，单槽位

消耗：deepseek-v4-pro │ 117K/1M
错题：长链条逻辑（7 步以上）
题：A、B、C、D、E 五人站一排。已知：
A 不在两端
B 在 C 的左边且两人不相邻
D 和 E 相邻
E 不在最右
C 不在最左
问：从左到右的顺序是什么？
答案：D-E-A-B-C 或 E-D-A-B-C？验证：
D-E-A-B-C：A 不在两端✓，B 在 C 左且不相邻？B-C 相邻✗。
E-D-A-C-B：B 在 C 左✗。
D-E-B-A-C：B 在 C 左不相邻✓，D-E 相邻✓，E 不在最右✓，C 不在最左✓，A 不在两端✓。
再验：D-E-B-A-C，B 在 C 左且不相邻（中间隔 A）✓。答案：D-E-B-A-C。
常识物理（反直觉）
题：一架飞机在赤道上空悬停（相对地面静止不动，不绕地球飞），12 小时后它会落在起飞点的正上方、东边、还是西边？为什么？
答案：西边。地球自西向东转，大气层随地球转，但飞机悬停时相对惯性空间静止，地面向东转，所以飞机相对地面向西移动。
晚上回来试试谷歌的模型。

sospda

deepseek 得出共7组解：

| # | 左→右 |
|:-:|:-----:|
| 1 | B A C E D |
| 2 | B D E A C |
| 3 | B E D A C |
| 4 | B A D E C |
| 5 | B A E D C |
| 6 | D E B A C |
| 7 | E D B A C |

本地Qwen3.6 b27 得出答案：有三种可能

1. B A C E D
2. B A E D C
3. B E D A C

答案不全，但是没错

williamlouis

@sospda 你也是7900XTX 24G 吗？

sospda

我的是r9700 ，我用的是Q5 KM

williamlouis

那就好。同模型你对了。我的错了。那就不好折腾了。我准备试试别的模型。我主要的考量是智力。快慢无所谓。

williamlouis

参考无审查版本优化27B K4
bash
echo high | sudo tee /sys/class/drm/card1/device/power_dpm_force_performance_level

然后启动 llama.cpp：

bash
cd /opt/llama.cpp
HSA_OVERRIDE_GFX_VERSION=11.0.0 ./build/bin/llama-server \
  -m models/Qwen3.6-27B-Q4_K_M.gguf \
  -c 65536 -ngl 99 \
  --flash-attn on \
  --cache-type-k q4_0 --cache-type-v q4_0 \
  --parallel 1 --reasoning off --no-warmup \
  --temp 0.7 --repeat-penalty 1.1 --top-p 0.9 \
  --host 0.0.0.0 --port 8081

优化后提升上下文到64K 可以和Hermes 联动
API 完全正常。下面是在 Mac 端 Hermes 的配置方法：

Mac 端 Hermes 连接 llama.cpp

你需要在 Mac 上打开终端，执行以下命令：

bash
1. 设置 provider 为自定义端点
hermes config set model.provider custom

2. 设置 API 地址（指向你的 Linux 机器）
hermes config set model.base_url http://192.168.8.247:8081/v1

3. llama.cpp 不需要 API key，但填一个占位值
hermes config set model.api_key not-needed

4. 设置模型名（必须与 llama-server 返回的一致）
hermes config set model.default Qwen3.6-27B-Q4_K_M.gguf


然后重启 Hermes（或 /reset）即可。



网络连通性

你的 Linux 机器 IP 是 192.168.8.247，端口 8081。

先确认 Mac 能访问：

bash
curl http://192.168.8.247:8081/v1/models


- 如果通 → 直接用上面的配置
- 如果不通 → 可能是防火墙或不在同一子网，可以通过 SSH 隧道转发：

bash
在 Mac 上建立 SSH 隧道
ssh -L 8081:localhost:8081 [email protected] -N

然后 base_url 改为：
hermes config set model.base_url http://localhost:8081/v1




等效的 config.yaml 直接编辑

也可以直接编辑 ~/.hermes/config.yaml：

yaml
model:
  provider: custom
  base_url: http://192.168.8.247:8081/v1
  api_key: not-needed
  default: Qwen3.6-27B-Q4_K_M.gguf




总结：核心就是告诉 Hermes 用一个自定义的 OpenAI 兼容端点，指向你的 llama.cpp server。llama.cpp 的 llama-server 内置了 /v1/chat/completions 和 /v1/models 端点，Hermes 直接就能用。

先这样。睡觉。明天继续。

williamlouis

测试：Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P.gguf 参照论坛水友配置安装成功。
受限于平台其他硬件性能我只跑了。32-41 token/s 的速度。上下文和预期一样可以128K。惊喜的是智力10题这个模型都回答正确了。这说明优化策略不是消耗原模型的智力基础上实现的。确实做到提速增智了。
参数如下
kp 运行状态

| 项目         | 详情                                                |
|--------------|-----------------------------------------------------|
| 模型         | Qwen3.6-27B-Uncensored-HauhauCS-Balanced-MTP-Q4_K_P |
| 端口         | 8080                                                |
| 量化         | Q4_K_P（17.5GB）                                    |
| 上下文       | 128K (131,072 tokens)                               |
| 生成速度     | ~33 tok/s                                           |
| Prompt 处理  | ~48 tok/s                                           |
| MTP 推测解码 | 18 drafts → 13 accepted（72% 采纳率）               |
| GPU DPM      | auto（设为 high 可到 ~35 tok/s）                    |
| 参数         | 27.3B                                               |

与 km 的关键差异：
- 上下文 128K vs 32K
- MTP 推测解码加速（--spec-type draft-mtp）
- --no-mmap（MTP 必需）
- V-cache q4_0（省显存给 128K 上下文）
- 端口 8080（km 之前用 8081）

sospda

用rocm比vulkan聪明一点，7个答案都给出了。计算时间差不多。
rocm也是q5，但是k q5，v q4

让我逐步推理：
五个位置 1-5（从左到右），条件：

A 不在两端 → A ∈ {2,3,4}
B 在 C 左边且不相邻 → B < C，C - B ≥ 2
D 和 E 相邻 → |D - E| = 1
E 不在最右 → E ≠ 5
C 不在最左 → C ≠ 1
关键推导：
C 只能在 3 或 5：
• C=2：B < 2 且 2-B ≥ 2 → B ≤ 0，不可能
• C=4：B ≤ 2，但无论怎么排，D和E都无法相邻
• C=5：B ≤ 3，可行
• C=3：B=1，也可行
经穷举，共有 7 种满足条件的排列：
编号排列
1 D, E, B, A, C
2 E, D, B, A, C
3 B, D, E, A, C
4 B, E, D, A, C
5 B, A, D, E, C
6 B, A, E, D, C
7 B, A, C, E, D
结论：题目条件不足以确定唯一顺序。 7 种排列都满足全部 5 个条件。
如果你确认题目没有遗漏条件，可以告诉我，我帮你再检查一下是否某个条件我理解有误。