關於本地版的模型

怪物

此主題已被删除！

怪物

此主題已被删除！

怪物

@terry
我的122B是千問3.5的，它只可以讀文檔跟圖片，
至於千問3.6，這是昨天我按照ChatGPT的只是安裝後他給的答案:

這次錯誤已經很明確：
failed to initialize model: qwen3next:
layer 40 missing attn_qkv/attn_gate projections
結論：你的 Q6、Q8 檔案不是壞掉；是目前 Ollama 無法正確載入這種 Qwen3.6 / Qwen3Next 架構。
你已經用「HF 直接 pull」和「本機 GGUF + Modelfile」兩種方式都測過，Q6、Q8 都同樣失敗，所以不是下載問題。
這個錯誤和 Ollama 對 Qwen3-Next / Qwen3.5 類 MoE / hybrid 架構支援不完整有關。GitHub 上也有人回報同類錯誤，例如 qwen3next: layer 0 missing attn_qkv/attn_gate projections，在不同 Ollama 版本都出現過。
現在該怎麼做
你如果堅持「不用 llama.cpp、只用 Ollama 給 Hermes」，目前這個 Qwen3.6-35B-A3B 暫時不能用。不是你的操作錯，而是 Ollama 後端不支援或有 bug。
先把不能跑的 Q6 / Q8 從 Ollama 清單移除，保留實體 GGUF 檔案在 C 碟：

不過我今天問了hermes，他自己主動幫我下在新的千問3.6模型，並且已經可以使用了，
而且可以自動利用我電腦裡的ComfyUI幫我生成圖片，現在正在測試生成視頻
謝謝

terry

1，换用llama.cpp，甚至你可以用lmstudio先玩起来。
2，你也不说系统。
3，下载Qwen3.6 Q4KM就行了，你的显存可以空下来做多会话和kv，Q4精度足够了。

你别用==这样的符号作为分割线，特别大，影响阅读。

怪物

@老茶
我買的時候不知道它的差異，這個max-Q的便宜1萬塊，我就買了
實際使用上感覺很不錯，70~122B的模型都能順跑，ComfyUI生成一張普通圖片只要6~10秒，
而且高效運轉時約75~85度C，電腦後方它的渦輪風扇排出的熱氣比機殼本身14CM的風扇還強，
我就在想，如果是一般版的600W，一定會熱爆。

怪物

@terry
好的，不好意思，我再研究看看，謝謝

terry

@怪物你搜下，你这个显存这么大，是不是有FP8的量化模型，如果有，那最适合你的卡，速度快，精度也够。我们一般都用Q4量化。不要用Q6，毫无意义。

怪物

@terry
好的，是找QWEN3.6:35B-FP8
或是QWEN3.6:70B-FP8的模型嗎?
謝謝

terry

@怪物你先不管其他的，先下载Qwen3.6 27b Q4KM，用llama.cpp把程序跑起来，这个模型很强大，精度也够，虽然有点配不上你显卡的算力，但是够用了。其它的暂时不要管，你连搜模型都不会，就不要折腾了。这个模型不会浪费你的时间，很强大。

怪物

@terry
好的，我來試試，謝謝

? 离线

直接上BF16精度，大小50多G，然后剩下的显存用来搞上下文之类的；你要有comfyui同时加载的需求就用FP8精度，你现在没有并发需求，comfyui和FP8模型都能一起塞进电脑。

johnnybegood

@怪物 122b 模型是safetensor还是GGUF? 同目录有没有放 mmproj 模型？放了的话应该支持多模态的，没放肯定是不支持的

抡锤者

關於本地版的模型