京东自营上了5090、6000pro,应该怎么选。
-
目前的需求是想跑localLLM(也就是qwen3.6-27B)来支持hermes agent。图、音、视频的本地生成是可选项。
目前京东自营的价格是5090 33331, RTX PRO 6000的工作站版本和MAX-Q版本都是72634。想问一下锤哥和大家,这二者从性价比的角度考虑如何选择与解读。网上有种论调是RTX PRO 6000 的96GB显存其实比较鸡肋。稍大的模型跑不了,小模型又overkill。
我能想到的对于96GB显存最好的使用场景就是localLLM+本地音视频,5090的32GB显存应该是满足不了同时LLM和图片文生图的。
不知道各位怎么理解。
-
目前的需求是想跑localLLM(也就是qwen3.6-27B)来支持hermes agent。图、音、视频的本地生成是可选项。
目前京东自营的价格是5090 33331, RTX PRO 6000的工作站版本和MAX-Q版本都是72634。想问一下锤哥和大家,这二者从性价比的角度考虑如何选择与解读。网上有种论调是RTX PRO 6000 的96GB显存其实比较鸡肋。稍大的模型跑不了,小模型又overkill。
我能想到的对于96GB显存最好的使用场景就是localLLM+本地音视频,5090的32GB显存应该是满足不了同时LLM和图片文生图的。
不知道各位怎么理解。
-
@王一民 4090 48G或者RTX Pro6000,有钱就上6000,一步到位,是有性能过剩的嫌疑,这是事实,但5090确实有显存不够用的时候。你就算买RTX Pro6000,也最好不要同时用它跑模型和生图,因为抢资源你不好控制。也可以卖一个32G的4080S搭配5090或者RTX pro5000.
-
@王一民 4090 48G或者RTX Pro6000,有钱就上6000,一步到位,是有性能过剩的嫌疑,这是事实,但5090确实有显存不够用的时候。你就算买RTX Pro6000,也最好不要同时用它跑模型和生图,因为抢资源你不好控制。也可以卖一个32G的4080S搭配5090或者RTX pro5000.
@terry 个人认为与其称之为“性能过剩”的说法,不如还是“和需求不匹配”来的恰当。在这里想较个真哈,纯粹是阐述一下剖析底层需求的逻辑方法,如果能帮到硬件选型的朋友也算歪打正着了:
1,假如像之前想买双DGX Spark的老哥说主要用来跑deepseek-v4-flash辅助写作,那么他需求的吐字速度就是比人眼阅读速度的极限快个2倍就行,因为他是真的要亲自来阅读模型输出的每个字的。他真正迫切的是VRAM要大到能装下聪明(大容量)的脑子,而50tokens/s和400tokens/s对老哥来说其实没有任何差异(心理上更爽带来的提升不算,没有实质命中需求)。
2,举个自己的例子,我自己跑文生图/图生图是依赖comfyUI工作流(ERNIE或者Qwen-Image)的,通常在草稿阶段需要我根据老婆口述的模糊设计,自己写提示词让工作流生成800x800的样稿,然后给她过目再口述怎么改,我再改提示词如此往复,直到老婆大人满意定稿,我再输出高清图或者作为视频的关键帧再去制作视频。这个改稿的过程少则10几次,多则三四十次,偶尔途中可能还会推翻设计。那么20多秒出图就一定比1分钟出图更有效率,每一秒的提升在我这都是实实在在的。
3,用来驱动Hermes跑定时任务or处理日杂事务,驱动claude code用来氛围开发或者像我作为操作Linux的中间层(我自己接触Linux起步较晚并不熟练,cc作为一根“Linux拐杖”简直深得我心,非常满意)。这类智能体会根据你布置给它的任务,从它自身的Harness里按范式一步一步尝试解决,虽然是会越来越聪明但那是在至少以周甚至月为尺度的多次复用情况下的。你临时给一个任务平均它就是要尝试10几次甚至二三十次才能搞定的,这种情况下IT(指令遵循)大模型输出的绝大部分内容都不需要你来阅读,纯属Agent<=>ITLLm之间的交互,你就坐等一个成功or失败的结果。这时候不论是prefill(LLM读)还是decode(LLM写),信我的你一定是希望越快越好,你不会希望给claude code说一句“按照上次的方式再重装一次SGLang框架”,1分钟快到了他才刚刚找到之前的memory开始读skills,你一定会Ctrl+C了自己来的。情况1就是算力有个保证超过阅读速度的门槛过了就行,往上看VRAM能够到哪个模型就花多少钱,是DGX还是MacStudioUltra256G,甚至10多个收一台512G的跑671B也随你喜欢;
情况2和3就是Vram有个门槛过了就行,比如只跑qwen3.6-27b-q4_K_M@128kContext,但是速度能跑多快给我跑多快,你就挑大于22G显存(举个例子没具体算)的预算内的最好的gpu就行,能折腾想省钱就amd,不想折腾就nvidia;大概率不会跑偏。
-
@terry 个人认为与其称之为“性能过剩”的说法,不如还是“和需求不匹配”来的恰当。在这里想较个真哈,纯粹是阐述一下剖析底层需求的逻辑方法,如果能帮到硬件选型的朋友也算歪打正着了:
1,假如像之前想买双DGX Spark的老哥说主要用来跑deepseek-v4-flash辅助写作,那么他需求的吐字速度就是比人眼阅读速度的极限快个2倍就行,因为他是真的要亲自来阅读模型输出的每个字的。他真正迫切的是VRAM要大到能装下聪明(大容量)的脑子,而50tokens/s和400tokens/s对老哥来说其实没有任何差异(心理上更爽带来的提升不算,没有实质命中需求)。
2,举个自己的例子,我自己跑文生图/图生图是依赖comfyUI工作流(ERNIE或者Qwen-Image)的,通常在草稿阶段需要我根据老婆口述的模糊设计,自己写提示词让工作流生成800x800的样稿,然后给她过目再口述怎么改,我再改提示词如此往复,直到老婆大人满意定稿,我再输出高清图或者作为视频的关键帧再去制作视频。这个改稿的过程少则10几次,多则三四十次,偶尔途中可能还会推翻设计。那么20多秒出图就一定比1分钟出图更有效率,每一秒的提升在我这都是实实在在的。
3,用来驱动Hermes跑定时任务or处理日杂事务,驱动claude code用来氛围开发或者像我作为操作Linux的中间层(我自己接触Linux起步较晚并不熟练,cc作为一根“Linux拐杖”简直深得我心,非常满意)。这类智能体会根据你布置给它的任务,从它自身的Harness里按范式一步一步尝试解决,虽然是会越来越聪明但那是在至少以周甚至月为尺度的多次复用情况下的。你临时给一个任务平均它就是要尝试10几次甚至二三十次才能搞定的,这种情况下IT(指令遵循)大模型输出的绝大部分内容都不需要你来阅读,纯属Agent<=>ITLLm之间的交互,你就坐等一个成功or失败的结果。这时候不论是prefill(LLM读)还是decode(LLM写),信我的你一定是希望越快越好,你不会希望给claude code说一句“按照上次的方式再重装一次SGLang框架”,1分钟快到了他才刚刚找到之前的memory开始读skills,你一定会Ctrl+C了自己来的。情况1就是算力有个保证超过阅读速度的门槛过了就行,往上看VRAM能够到哪个模型就花多少钱,是DGX还是MacStudioUltra256G,甚至10多个收一台512G的跑671B也随你喜欢;
情况2和3就是Vram有个门槛过了就行,比如只跑qwen3.6-27b-q4_K_M@128kContext,但是速度能跑多快给我跑多快,你就挑大于22G显存(举个例子没具体算)的预算内的最好的gpu就行,能折腾想省钱就amd,不想折腾就nvidia;大概率不会跑偏。
@benton-yi 很好的分享,赞同

-
我目前在用5090,我觉得5090挺鸡肋的,32G显存就跟要饭的一样,有一顿没一顿~
GPU本身肯定是很不错的,就是显存太少了,你买这块的话模型的选择就很局限了~
Qwen3.6-27B,死活弄不上SGLang,还在努力中。。。(但怕弄上了也跑不稳)
这块卡如果是要玩Hermes Agent,像我就是养马~那要Qwen稳定输出只能选3.5-9B或3-14B,
3.5-9B是多模态,模型载入后还有足够显存留给KV,不然你跟小马子聊不了多久就OOM了~
3-14B是纯文字,其他模态你就要Aux去其他云API了~只能是这样了~这是我目前的经验~ -
我目前在用5090,我觉得5090挺鸡肋的,32G显存就跟要饭的一样,有一顿没一顿~
GPU本身肯定是很不错的,就是显存太少了,你买这块的话模型的选择就很局限了~
Qwen3.6-27B,死活弄不上SGLang,还在努力中。。。(但怕弄上了也跑不稳)
这块卡如果是要玩Hermes Agent,像我就是养马~那要Qwen稳定输出只能选3.5-9B或3-14B,
3.5-9B是多模态,模型载入后还有足够显存留给KV,不然你跟小马子聊不了多久就OOM了~
3-14B是纯文字,其他模态你就要Aux去其他云API了~只能是这样了~这是我目前的经验~ -
@Trypt-Wang 它很快啊,32G确实有时候没有48G爽,但是它可以战未来,可以改大显存啊
你养马用llama.cpp vllm 或者lucebox就可以了,27b 5090能玩到飞起,飞到你难以想象。不用sg-lang,sg-lang是版本地狱,论坛有帖子讲过选什么版本,时间比较久了,你认真找下,它对qwen3.6的支持很不好。 -
@terry 那我得找找论坛帖子,我今天第一天上你的论坛~
但27B量化4Bit后加载完也只剩下32K+的上下文,马跑不动呢。。。
小马说要至少64K才跑的动。。。我目前碰到的状况~
我再爬爬文吧~感谢~@Trypt-Wang 1,你不要折腾27b上sg-lang了,2,用llama.cpp 或者lucebox:
https://lcz.me/topic/100/7900xtx-llama.cpp-qwen3.6-27b-turboquant-mtp-测试结果分享
https://lcz.me/topic/202/lucebox-dflash-pflash-编译与部署指南-qwen3.6-27b-方便抄作业-linux这两个帖子是给AMD显卡用的,但是里面提到的技术都是N卡能用的,你问下AI,让你学会配置。
3,如果你觉得麻烦,下载LMStudio,让AI教你设置,使用Qwen3.6 27b Q4KM模型,在UI界面里可以下载,开启Q8 KV量化,设置上下文为256k,保证让你爽飞,这不是最优方案,但是5090也不需要什么优化。
-
@Trypt-Wang 1,你不要折腾27b上sg-lang了,2,用llama.cpp 或者lucebox:
https://lcz.me/topic/100/7900xtx-llama.cpp-qwen3.6-27b-turboquant-mtp-测试结果分享
https://lcz.me/topic/202/lucebox-dflash-pflash-编译与部署指南-qwen3.6-27b-方便抄作业-linux这两个帖子是给AMD显卡用的,但是里面提到的技术都是N卡能用的,你问下AI,让你学会配置。
3,如果你觉得麻烦,下载LMStudio,让AI教你设置,使用Qwen3.6 27b Q4KM模型,在UI界面里可以下载,开启Q8 KV量化,设置上下文为256k,保证让你爽飞,这不是最优方案,但是5090也不需要什么优化。
-
我目前在用5090,我觉得5090挺鸡肋的,32G显存就跟要饭的一样,有一顿没一顿~
GPU本身肯定是很不错的,就是显存太少了,你买这块的话模型的选择就很局限了~
Qwen3.6-27B,死活弄不上SGLang,还在努力中。。。(但怕弄上了也跑不稳)
这块卡如果是要玩Hermes Agent,像我就是养马~那要Qwen稳定输出只能选3.5-9B或3-14B,
3.5-9B是多模态,模型载入后还有足够显存留给KV,不然你跟小马子聊不了多久就OOM了~
3-14B是纯文字,其他模态你就要Aux去其他云API了~只能是这样了~这是我目前的经验~@Trypt-Wang 我现在是windows环境下搭建的本地模型,3.6-27B-Q5_K_M上下文64k + MiniCPM 视觉 显存占用31GB;3.6-27B-Q5_K_M上下文96k 显存29GB
Windows 11 Pro (Build 26200)
├── Ryzen 9 9950X3D · 64GB RAM · RTX 5090 32GB
└── WSL2 (Ubuntu 24.04) — vmmemWSL 30.3GB
├── llama.cpp v9294 (CUDA 后端)
│ ├── Qwen3.6-27B-Q5_K_M → :8080 (主模型)
│ └── MiniCPM-V 2.6-Q3 → :8081 (视觉)
├── Hermes Agent v0.14.0 (Python 3.11.15)RTX 5090: 32 GB 总显存
├── Qwen3.6-27B-Q5_K_M ≈ ~26 GB (模型权重 + KV cache)
├── MiniCPM-V 2.6-Q3 ≈ ~5 GB (模型 + mmproj)
└── 剩余 ≈ 468 MB
️ 几乎耗尽我也是刚开始学习弄本地模型,基本就是小白,但是给我最大的感受是显存大才是王道!64k的上下文基本不够用,让AI写了个页面数据看板的小功能,让他改些问题,来回沟通个不了10次就满上下文了,显存大,上下文大才是高效使用的关键!@王一民 另外我也这几天也看了 RTX PRO 6000的工作站版本 这几天好像已经8.5多了吧,7.2没这个价了吧

另外我小白 是不是哪些搭建环境配置不太合理,如何搭建会更好些,锤兄给把把脉,感谢!@terry
-
@Trypt-Wang 我现在是windows环境下搭建的本地模型,3.6-27B-Q5_K_M上下文64k + MiniCPM 视觉 显存占用31GB;3.6-27B-Q5_K_M上下文96k 显存29GB
Windows 11 Pro (Build 26200)
├── Ryzen 9 9950X3D · 64GB RAM · RTX 5090 32GB
└── WSL2 (Ubuntu 24.04) — vmmemWSL 30.3GB
├── llama.cpp v9294 (CUDA 后端)
│ ├── Qwen3.6-27B-Q5_K_M → :8080 (主模型)
│ └── MiniCPM-V 2.6-Q3 → :8081 (视觉)
├── Hermes Agent v0.14.0 (Python 3.11.15)RTX 5090: 32 GB 总显存
├── Qwen3.6-27B-Q5_K_M ≈ ~26 GB (模型权重 + KV cache)
├── MiniCPM-V 2.6-Q3 ≈ ~5 GB (模型 + mmproj)
└── 剩余 ≈ 468 MB
️ 几乎耗尽我也是刚开始学习弄本地模型,基本就是小白,但是给我最大的感受是显存大才是王道!64k的上下文基本不够用,让AI写了个页面数据看板的小功能,让他改些问题,来回沟通个不了10次就满上下文了,显存大,上下文大才是高效使用的关键!@王一民 另外我也这几天也看了 RTX PRO 6000的工作站版本 这几天好像已经8.5多了吧,7.2没这个价了吧

另外我小白 是不是哪些搭建环境配置不太合理,如何搭建会更好些,锤兄给把把脉,感谢!@terry
@airbrush 哦~我也分享一下:
- Ryzen Threadripper 3970X + 256GB RAM + RTX 5090 32GB + 很多nvme + Ubuntu 24.04 LTS
- MacMini M4 16GB RAM x 2(垃圾东西,只能跑2B之类的耍白痴)
本来只是想养养虾,结果变成天天伺候虾,马一出来我就立刻改养马~马养养觉得数据必须在本地,就开始搞本地模型,前面帮朋友架了个Ryzen 9950X,试试不用显卡也能跑本地模型,有2X t/s吧~但他是Zen5还有AVX512~我的Zen2老古董就必须上显卡了,我这只能买到5090,也就只能先这样了~显存大才是王道,对!64K上下文,马连门都出不去~
我现在正在试着用vllm、lucebox、llama.cpp都跑跑看3.6-27B-Q4,看最多能剩多少kv给小马子,如果上不了256K,那就降低标准跑3.5-9B-FP8,目的是要让马跑的稳跑的顺~
-
@airbrush 哦~我也分享一下:
- Ryzen Threadripper 3970X + 256GB RAM + RTX 5090 32GB + 很多nvme + Ubuntu 24.04 LTS
- MacMini M4 16GB RAM x 2(垃圾东西,只能跑2B之类的耍白痴)
本来只是想养养虾,结果变成天天伺候虾,马一出来我就立刻改养马~马养养觉得数据必须在本地,就开始搞本地模型,前面帮朋友架了个Ryzen 9950X,试试不用显卡也能跑本地模型,有2X t/s吧~但他是Zen5还有AVX512~我的Zen2老古董就必须上显卡了,我这只能买到5090,也就只能先这样了~显存大才是王道,对!64K上下文,马连门都出不去~
我现在正在试着用vllm、lucebox、llama.cpp都跑跑看3.6-27B-Q4,看最多能剩多少kv给小马子,如果上不了256K,那就降低标准跑3.5-9B-FP8,目的是要让马跑的稳跑的顺~
-
@airbrush 哦~我也分享一下:
- Ryzen Threadripper 3970X + 256GB RAM + RTX 5090 32GB + 很多nvme + Ubuntu 24.04 LTS
- MacMini M4 16GB RAM x 2(垃圾东西,只能跑2B之类的耍白痴)
本来只是想养养虾,结果变成天天伺候虾,马一出来我就立刻改养马~马养养觉得数据必须在本地,就开始搞本地模型,前面帮朋友架了个Ryzen 9950X,试试不用显卡也能跑本地模型,有2X t/s吧~但他是Zen5还有AVX512~我的Zen2老古董就必须上显卡了,我这只能买到5090,也就只能先这样了~显存大才是王道,对!64K上下文,马连门都出不去~
我现在正在试着用vllm、lucebox、llama.cpp都跑跑看3.6-27B-Q4,看最多能剩多少kv给小马子,如果上不了256K,那就降低标准跑3.5-9B-FP8,目的是要让马跑的稳跑的顺~
