京东自营上了5090、6000pro，应该怎么选。

Daniel

此主題已被删除！

terry

@benton-yi 很好的分享，赞同

? 离线

我目前在用5090，我觉得5090挺鸡肋的，32G显存就跟要饭的一样，有一顿没一顿～
GPU本身肯定是很不错的，就是显存太少了，你买这块的话模型的选择就很局限了～
Qwen3.6-27B，死活弄不上SGLang，还在努力中。。。（但怕弄上了也跑不稳）
这块卡如果是要玩Hermes Agent，像我就是养马～那要Qwen稳定输出只能选3.5-9B或3-14B，
3.5-9B是多模态，模型载入后还有足够显存留给KV，不然你跟小马子聊不了多久就OOM了～
3-14B是纯文字，其他模态你就要Aux去其他云API了～只能是这样了～这是我目前的经验～

terry

@Trypt-Wang 它很快啊，32G确实有时候没有48G爽，但是它可以战未来，可以改大显存啊你养马用llama.cpp vllm 或者lucebox就可以了，27b 5090能玩到飞起，飞到你难以想象。不用sg-lang，sg-lang是版本地狱，论坛有帖子讲过选什么版本，时间比较久了，你认真找下，它对qwen3.6的支持很不好。

? 离线

@terry 那我得找找论坛帖子，我今天第一天上你的论坛～
但27B量化4Bit后加载完也只剩下32K+的上下文，马跑不动呢。。。
小马说要至少64K才跑的动。。。我目前碰到的状况～
我再爬爬文吧～感谢～

terry

@Trypt-Wang 1，你不要折腾27b上sg-lang了，2,用llama.cpp 或者lucebox：
https://lcz.me/topic/100/7900xtx-llama.cpp-qwen3.6-27b-turboquant-mtp-测试结果分享
 https://lcz.me/topic/202/lucebox-dflash-pflash-编译与部署指南-qwen3.6-27b-方便抄作业-linux

这两个帖子是给AMD显卡用的，但是里面提到的技术都是N卡能用的，你问下AI，让你学会配置。

3，如果你觉得麻烦，下载LMStudio，让AI教你设置，使用Qwen3.6 27b Q4KM模型，在UI界面里可以下载，开启Q8 KV量化，设置上下文为256k，保证让你爽飞，这不是最优方案，但是5090也不需要什么优化。

? 离线

@terry 感谢感谢！我不怕麻烦，也不怕折腾～这就拜读一下这两个帖子～

airbrush

@Trypt-Wang 我现在是windows环境下搭建的本地模型，3.6-27B-Q5_K_M上下文64k + MiniCPM 视觉显存占用31GB；3.6-27B-Q5_K_M上下文96k 显存29GB

Windows 11 Pro (Build 26200)
├── Ryzen 9 9950X3D · 64GB RAM · RTX 5090 32GB
└── WSL2 (Ubuntu 24.04) — vmmemWSL 30.3GB
├── llama.cpp v9294 (CUDA 后端)
│ ├── Qwen3.6-27B-Q5_K_M → :8080 (主模型)
│ └── MiniCPM-V 2.6-Q3 → :8081 (视觉)
├── Hermes Agent v0.14.0 (Python 3.11.15)

RTX 5090: 32 GB 总显存
├── Qwen3.6-27B-Q5_K_M ≈ ~26 GB (模型权重 + KV cache)
├── MiniCPM-V 2.6-Q3 ≈ ~5 GB (模型 + mmproj)
└── 剩余 ≈ 468 MB ️ 几乎耗尽

我也是刚开始学习弄本地模型，基本就是小白，但是给我最大的感受是显存大才是王道！64k的上下文基本不够用，让AI写了个页面数据看板的小功能，让他改些问题，来回沟通个不了10次就满上下文了，显存大，上下文大才是高效使用的关键！@王一民另外我也这几天也看了 RTX PRO 6000的工作站版本这几天好像已经8.5多了吧，7.2没这个价了吧

另外我小白是不是哪些搭建环境配置不太合理，如何搭建会更好些，锤兄给把把脉，感谢！@terry

terry

3.6-27B-Q5_K_M 换成Q4KM，这个我说了很多次了，另外可以尝试apex版本。

? 离线

@airbrush 哦～我也分享一下：

Ryzen Threadripper 3970X + 256GB RAM + RTX 5090 32GB + 很多nvme + Ubuntu 24.04 LTS
MacMini M4 16GB RAM x 2（垃圾东西，只能跑2B之类的耍白痴）

本来只是想养养虾，结果变成天天伺候虾，马一出来我就立刻改养马～马养养觉得数据必须在本地，就开始搞本地模型，前面帮朋友架了个Ryzen 9950X，试试不用显卡也能跑本地模型，有2X t/s吧～但他是Zen5还有AVX512～我的Zen2老古董就必须上显卡了，我这只能买到5090，也就只能先这样了～显存大才是王道，对！64K上下文，马连门都出不去～

我现在正在试着用vllm、lucebox、llama.cpp都跑跑看3.6-27B-Q4，看最多能剩多少kv给小马子，如果上不了256K，那就降低标准跑3.5-9B-FP8，目的是要让马跑的稳跑的顺～

terry

@Trypt-Wang 大哥你的卡qwen3.6 27b 256k上下文给你吃满了，怎么会不够呢，速度不需要优化都飞快。肯定是你配置出问题了。qwen3.6 27b q4 km，你直接下载LM studio，KV设置为Q8量化，上下文设置为最大，不做任何优化就行了。

airbrush

@terry 锤兄你说的Q4KM 是这个https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF/blob/main/Qwen3.6-27B-Q4_K_M.gguf 版本吗？

apex版本又是哪个版本？是这个吗 Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP ？

小白还不太懂

airbrush

@Trypt-Wang 5090 32G卡开不到256k上下文吧，如果搞定了给分析哦 ~！

terry

@airbrush 你直接下载LM Studio，然后再UI界面搜索qwen3.6 27b q4km就可以了。

Tony Wang

@terry

32G 开 256K, 是不是得 KV 开启Q8?

terry

@Tony-Wang 是的Q8 KV，可以跑满256k上下文，优化下能跑几个会话，实际上都用128k上下文，多开更合理，hermes 128k体验已经不错了。

抡锤者

京东自营上了5090、6000pro，应该怎么选。