3090还是3090 *2+NVLink

terry

我不用Deepseek V4 Pro，我都是用的Flash，跑Agent不需要那么大参数，280b都超标了，事实上Qwen3.6 27b可以完成绝大多数工作。它的问题是本地模型的工具链没有云端丰富。但是可以用V4 Flash作为fallback参数，本地不行就调用它。它执行完毕之后形成skills，本地模型再跑就可以了。你换成Qwen3.6 27b+Deepseek V4 Flash不会有多大差距。Hermes不太吃模型自身能力，它的harness做的不错。

关于显卡，一张卡和两张卡+NVLink差距当然大，两张TP算力和显存都翻倍，减去框架开销也有1.8倍左右。3090单卡就够了，你多研究下Turboquant mtp dflash等技术，就一个turboquant搞定就够你玩了。

现在不建议味了跑AI买5090，太贵了，你可以买个RTX Pro 4500 32G就够你用， 5000 48G， 6000 96G都是很好的选择。性能都够了，不会有啥便秘的感觉。5090烧接口，功耗太高这是基本无解的。它的溢价来自于游戏能力。

墙内人

Claude Opus 4.5时代最好用，最近幻觉太多，minimax也不错，但是deepseek v4 flash便宜。本地就只有qwen 27b，但是速度远不如在线。

starryskyknight

@terry 海外我的用途最推荐的是哪张卡啊? 我看您比较推荐nvidia的生态

? 离线

我目前使用rtx3090 跑qwen3.6 27B Q4量化，给hermes用基本可以的，就是有时候偶发工具调用死循环，我已经在hermes的人设内容限制很死了，概率降低了很多，但是偶尔还是会，我感觉是模型问题了。

terry

@刘海彬可能吧，我暂时没遇到，你是不是用了q4ks? Kv怎么量化的？

terry

@starryskyknight 你预算都不说，a100最好

starryskyknight

terry 抱歉预算大概一万七一万八人民币内

? 离线

@terry 哥，我的启动参数如下：
/root/llama.cpp/build/bin/llama-server -m /data/models/gguf/Qwen3.6-27B-UD-Q4_K_XL.gguf --mmproj /data/models/gguf/Qwen3.6-27B-mmproj-F16.gguf --mmproj-offload --alias qwen36-27B-Q4 --jinja -ngl 999 -c 128000 -fa on --cache-ram 16384 --cache-type-k q8_0 --cache-type-v q8_0 -np 1 --sampling-seq k --top-k 1 --host 0.0.0.0 --port 11434 --reasoning on --reasoning-format deepseek --reasoning-budget 512

terry

Q4_K_XL.gguf 这个模型比较大，不太好，不是越大越好的，你换成Q4KM，因为做的人多，兼容性更好。推理关掉， --reasoning-budget 512 改为0，跑Agent它推理极大影响效率，智力提升微乎其微，kv改为80k，可以尝试Truboquant版本。

? 离线

@terry 好的，谢谢。我试一下

terry

@starryskyknight 你买4080S 32G，或加几千买RTX Pro4500 32G。如果想便宜3090 24G。

starryskyknight

@terry 感谢提供意见，在海外买不到4080S 32G 我找另外两张再次感谢

鍾子揚

https://www.reddit.com/r/LocalLLaMA/comments/1sw5fb7/qwen36_35b_a3b_heretic_kld_00015_incredible_model/

這個技術可以把整個qwen 3.6 35bA3B Q8量化+256k上下文塞進去24g vram～有點想跑看看

terry

@鍾子揚不建议折腾35b，它不如27b强，甚至差距明显

暧昧光影

看到up推荐3090，担心背面显存温度过高，加了点入了3090ti，up觉得怎么样@terry

terry

@暧昧光影挺好的，做好散热都没啥问题。

Peace Love

@terry
5090 的溢價 , 來自於將來能改 64G , 甚至 96G .

terry

@Peace-Love 那何必呢，为什么不直接用Pro6000，性价比不是更高？

muskelon

目前单3090 跑qwen 3.6 q4km 用了Truboquant 可以跑128k上下文没什么问题

Peace Love

@terry
能買三張 5090.

抡锤者

3090还是3090 *2+NVLink