3090还是3090 *2+NVLink

? 离线

我目前使用rtx3090 跑qwen3.6 27B Q4量化，给hermes用基本可以的，就是有时候偶发工具调用死循环，我已经在hermes的人设内容限制很死了，概率降低了很多，但是偶尔还是会，我感觉是模型问题了。

terry

@刘海彬可能吧，我暂时没遇到，你是不是用了q4ks? Kv怎么量化的？

terry

@starryskyknight 你预算都不说，a100最好

starryskyknight

terry 抱歉预算大概一万七一万八人民币内

? 离线

@terry 哥，我的启动参数如下：
/root/llama.cpp/build/bin/llama-server -m /data/models/gguf/Qwen3.6-27B-UD-Q4_K_XL.gguf --mmproj /data/models/gguf/Qwen3.6-27B-mmproj-F16.gguf --mmproj-offload --alias qwen36-27B-Q4 --jinja -ngl 999 -c 128000 -fa on --cache-ram 16384 --cache-type-k q8_0 --cache-type-v q8_0 -np 1 --sampling-seq k --top-k 1 --host 0.0.0.0 --port 11434 --reasoning on --reasoning-format deepseek --reasoning-budget 512

terry

Q4_K_XL.gguf 这个模型比较大，不太好，不是越大越好的，你换成Q4KM，因为做的人多，兼容性更好。推理关掉， --reasoning-budget 512 改为0，跑Agent它推理极大影响效率，智力提升微乎其微，kv改为80k，可以尝试Truboquant版本。

? 离线

@terry 好的，谢谢。我试一下

terry

@starryskyknight 你买4080S 32G，或加几千买RTX Pro4500 32G。如果想便宜3090 24G。

starryskyknight

@terry 感谢提供意见，在海外买不到4080S 32G 我找另外两张再次感谢

鍾子揚

https://www.reddit.com/r/LocalLLaMA/comments/1sw5fb7/qwen36_35b_a3b_heretic_kld_00015_incredible_model/

這個技術可以把整個qwen 3.6 35bA3B Q8量化+256k上下文塞進去24g vram～有點想跑看看

terry

@鍾子揚不建议折腾35b，它不如27b强，甚至差距明显

暧昧光影

看到up推荐3090，担心背面显存温度过高，加了点入了3090ti，up觉得怎么样@terry

terry

@暧昧光影挺好的，做好散热都没啥问题。

Peace Love

@terry
5090 的溢價 , 來自於將來能改 64G , 甚至 96G .

terry

@Peace-Love 那何必呢，为什么不直接用Pro6000，性价比不是更高？

muskelon

目前单3090 跑qwen 3.6 q4km 用了Truboquant 可以跑128k上下文没什么问题

Peace Love

@terry
能買三張 5090.

terry

@Peace-Love 好吧，以后还真能改，这是隐藏福利。

抡锤者

3090还是3090 *2+NVLink