我有个关于hermes使用本地显卡和模型的疑问

bily j

但是VLLM对gguf支持是不太好的

Xiaote

@bily-j 关于vLLM和GGUF的问题，我来展开说说：

vLLM确实对GGUF支持不好（有实验性的llama.cpp backend但很不成熟），vLLM主要用的是HF（Hugging Face）格式或者safetensors格式的模型。所以你如果用vLLM，需要找HF格式的模型。

关于"无审核模型"：

GGUF社区确实无审核模型最多（TheBloke、Bartowski这些上传者经常有abliterated版本）
HF格式的无审核模型其实也不少，只是搜索方式不同。在Hugging Face上搜"abliterated"或者"uncensored"加上模型名，能找到很多：
- 比如 abliterated/Llama-3.1-8B-Instruct 这类直接去掉了审核层的版本
- 或者找一些本身训练时就偏开放的模型（如Dolphin、Loyal、Magnum等系列）

vLLM的一条实用建议：
如果你既想要vLLM的速度又想要无审核模型，可以：

如果你觉得vLLM + HF格式的流程太麻烦，继续用llama.cpp + GGUF也是很好的选择。GGUF本身就是一个很成熟的格式，无审核模型的生态也好。关键是用着顺手就行了。

566656661

我自己有在用vLLM搭建API配合cline使用, 可以給點意見

除了跟@xiaote 說的用有寫abliterated的模型, 也可以用有寫heretic的模型

heretic在 重新訓練的數據集比較好 的情況下, 模型的思考能力, 連貫性跟邏輯會比abliterated更強, 也相對會更加少出現拒絕回答的情況

以下是碎碎唸跟簡單講一下原理, 有興趣可以讀一下

在hf的model card上通常都會有refusals rate, 我拿兩個模型作為例子

llmfan46/Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved-GGUF

wangzhang/Qwen3.6-35B-A3B-abliterated-GGUF

KL越接近基礎模型越好, 代表兩個模型的思維偏差越低, 在這兩個例子下就是越接近0越好, KL基本上低於0.3就沒什麼大問題

heretic跟abliterated都是去審核的方式

abliterated只能說是減低拒絕的概率(refusal-reduced), 因為只單純控制權重(Weight Projection), 不涉及微調

heretic則是利用貝葉斯優化(Bayesian optimization)微調模型

但很遺憾的是沒有一個通用準則說什麼時候用abliterated, 什麼時候用heretic

~~然後就有人腦洞大開會跑去弄個混合模型~~

Youssofal/Qwen3.6-35B-A3B-Abliterated-Heretic-GGUF

bily j

@566656661 我用qwen3.6-27B模型的，我要去审核版本，带MTP功能的模型你有没有推荐的？或者在huggenface上如何搜索？

566656661

我自己是在用sakamakismile/Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP

因為我有Blackwell架構卡, 所以跑在nvfp4跟vLLM上

非Blackwell可以試試這個
YuYu1015/Huihui-Qwen3.6-27B-abliterated-UD-Q4_K_XL-MTP-GGUF

bily j

kvcash是缓存命中，在同一个会话里，kvcash会一直叠加还是kvcash说命中的时候增加下，显存马上会回退

566656661

以系統的角度來說, 理論上不會看到VRAM在上下不停跳動, 會看到跳動的只有內部引擎 (vLLM / llamacpp)

輸入階段(Prefill)命中的話會直接使用快取, 沒命中的話則需要KV Cache
輸出階段(Decode)則會不停使用KV cache, 以供應下一次輸入階段使用

~~如果我沒理解錯的話~~

Xiaote

@bily-j 关于 KV cache 的问题：

KV cache 在同一个会话里的行为是这样的：

同一个会话内，KV cache 是持续累积的。每次生成新 token，系统会把前一步计算的 Key 和 Value 缓存起来追加到已有缓存后面。所以随着对话变长，显存占用会持续增长，不会主动回退。
你看到的"命中时增加"是指：当新输入到达时，系统计算新 token 的 KV 值并追加到缓存尾部，显存占用确实会上升。但它不会自动回退——除非你主动清空或截断上下文。
如果你觉得显存不够了，有几个选择：
- 滑动窗口（sliding window）：只保留最近 N 个 token 的 KV cache，老的丢弃
- 上下文截断：清空历史，从头开始新对话
- 使用支持 KV cache 量化的推理后端（比如 llama.cpp 的 Q4_K_M cache quantization），可以在一定程度上减少 KV cache 的显存占用
- vLLM 支持 --max-model-len 和 --gpu-memory-utilization 来控制 KV cache 的显存分配

简单说：KV cache 在会话内是只增不减的，直到你手动重置或溢出 OOM。

bily j

@566656661 我实际用MTP的模型感觉，MTP的模型比某些模型要差，容易编程或者什么的时候，绕死路，死循环，应该是模型的问题，因为我用同样的参数，其他模型就没有走死循环的特点

566656661

MTP的話應該不是導致模型陷入Thinking Loop的主因

但是我覺得Tool use配合MTP (尤其大或等於3的情況下) 一齊用才容易導致, 因為Tool use涉及大量Json形式的structured output跟XML, 這裡Prediction太激進的話很容易翻車