京东自营上了5090、6000pro,应该怎么选。
-
@Trypt-Wang 它很快啊,32G确实有时候没有48G爽,但是它可以战未来,可以改大显存啊
你养马用llama.cpp vllm 或者lucebox就可以了,27b 5090能玩到飞起,飞到你难以想象。不用sg-lang,sg-lang是版本地狱,论坛有帖子讲过选什么版本,时间比较久了,你认真找下,它对qwen3.6的支持很不好。 -
@terry 那我得找找论坛帖子,我今天第一天上你的论坛~
但27B量化4Bit后加载完也只剩下32K+的上下文,马跑不动呢。。。
小马说要至少64K才跑的动。。。我目前碰到的状况~
我再爬爬文吧~感谢~@Trypt-Wang 1,你不要折腾27b上sg-lang了,2,用llama.cpp 或者lucebox:
https://lcz.me/topic/100/7900xtx-llama.cpp-qwen3.6-27b-turboquant-mtp-测试结果分享
https://lcz.me/topic/202/lucebox-dflash-pflash-编译与部署指南-qwen3.6-27b-方便抄作业-linux这两个帖子是给AMD显卡用的,但是里面提到的技术都是N卡能用的,你问下AI,让你学会配置。
3,如果你觉得麻烦,下载LMStudio,让AI教你设置,使用Qwen3.6 27b Q4KM模型,在UI界面里可以下载,开启Q8 KV量化,设置上下文为256k,保证让你爽飞,这不是最优方案,但是5090也不需要什么优化。
-
@Trypt-Wang 1,你不要折腾27b上sg-lang了,2,用llama.cpp 或者lucebox:
https://lcz.me/topic/100/7900xtx-llama.cpp-qwen3.6-27b-turboquant-mtp-测试结果分享
https://lcz.me/topic/202/lucebox-dflash-pflash-编译与部署指南-qwen3.6-27b-方便抄作业-linux这两个帖子是给AMD显卡用的,但是里面提到的技术都是N卡能用的,你问下AI,让你学会配置。
3,如果你觉得麻烦,下载LMStudio,让AI教你设置,使用Qwen3.6 27b Q4KM模型,在UI界面里可以下载,开启Q8 KV量化,设置上下文为256k,保证让你爽飞,这不是最优方案,但是5090也不需要什么优化。
-
我目前在用5090,我觉得5090挺鸡肋的,32G显存就跟要饭的一样,有一顿没一顿~
GPU本身肯定是很不错的,就是显存太少了,你买这块的话模型的选择就很局限了~
Qwen3.6-27B,死活弄不上SGLang,还在努力中。。。(但怕弄上了也跑不稳)
这块卡如果是要玩Hermes Agent,像我就是养马~那要Qwen稳定输出只能选3.5-9B或3-14B,
3.5-9B是多模态,模型载入后还有足够显存留给KV,不然你跟小马子聊不了多久就OOM了~
3-14B是纯文字,其他模态你就要Aux去其他云API了~只能是这样了~这是我目前的经验~@Trypt-Wang 我现在是windows环境下搭建的本地模型,3.6-27B-Q5_K_M上下文64k + MiniCPM 视觉 显存占用31GB;3.6-27B-Q5_K_M上下文96k 显存29GB
Windows 11 Pro (Build 26200)
├── Ryzen 9 9950X3D · 64GB RAM · RTX 5090 32GB
└── WSL2 (Ubuntu 24.04) — vmmemWSL 30.3GB
├── llama.cpp v9294 (CUDA 后端)
│ ├── Qwen3.6-27B-Q5_K_M → :8080 (主模型)
│ └── MiniCPM-V 2.6-Q3 → :8081 (视觉)
├── Hermes Agent v0.14.0 (Python 3.11.15)RTX 5090: 32 GB 总显存
├── Qwen3.6-27B-Q5_K_M ≈ ~26 GB (模型权重 + KV cache)
├── MiniCPM-V 2.6-Q3 ≈ ~5 GB (模型 + mmproj)
└── 剩余 ≈ 468 MB
️ 几乎耗尽我也是刚开始学习弄本地模型,基本就是小白,但是给我最大的感受是显存大才是王道!64k的上下文基本不够用,让AI写了个页面数据看板的小功能,让他改些问题,来回沟通个不了10次就满上下文了,显存大,上下文大才是高效使用的关键!@王一民 另外我也这几天也看了 RTX PRO 6000的工作站版本 这几天好像已经8.5多了吧,7.2没这个价了吧

另外我小白 是不是哪些搭建环境配置不太合理,如何搭建会更好些,锤兄给把把脉,感谢!@terry
-
@Trypt-Wang 我现在是windows环境下搭建的本地模型,3.6-27B-Q5_K_M上下文64k + MiniCPM 视觉 显存占用31GB;3.6-27B-Q5_K_M上下文96k 显存29GB
Windows 11 Pro (Build 26200)
├── Ryzen 9 9950X3D · 64GB RAM · RTX 5090 32GB
└── WSL2 (Ubuntu 24.04) — vmmemWSL 30.3GB
├── llama.cpp v9294 (CUDA 后端)
│ ├── Qwen3.6-27B-Q5_K_M → :8080 (主模型)
│ └── MiniCPM-V 2.6-Q3 → :8081 (视觉)
├── Hermes Agent v0.14.0 (Python 3.11.15)RTX 5090: 32 GB 总显存
├── Qwen3.6-27B-Q5_K_M ≈ ~26 GB (模型权重 + KV cache)
├── MiniCPM-V 2.6-Q3 ≈ ~5 GB (模型 + mmproj)
└── 剩余 ≈ 468 MB
️ 几乎耗尽我也是刚开始学习弄本地模型,基本就是小白,但是给我最大的感受是显存大才是王道!64k的上下文基本不够用,让AI写了个页面数据看板的小功能,让他改些问题,来回沟通个不了10次就满上下文了,显存大,上下文大才是高效使用的关键!@王一民 另外我也这几天也看了 RTX PRO 6000的工作站版本 这几天好像已经8.5多了吧,7.2没这个价了吧

另外我小白 是不是哪些搭建环境配置不太合理,如何搭建会更好些,锤兄给把把脉,感谢!@terry
@airbrush 哦~我也分享一下:
- Ryzen Threadripper 3970X + 256GB RAM + RTX 5090 32GB + 很多nvme + Ubuntu 24.04 LTS
- MacMini M4 16GB RAM x 2(垃圾东西,只能跑2B之类的耍白痴)
本来只是想养养虾,结果变成天天伺候虾,马一出来我就立刻改养马~马养养觉得数据必须在本地,就开始搞本地模型,前面帮朋友架了个Ryzen 9950X,试试不用显卡也能跑本地模型,有2X t/s吧~但他是Zen5还有AVX512~我的Zen2老古董就必须上显卡了,我这只能买到5090,也就只能先这样了~显存大才是王道,对!64K上下文,马连门都出不去~
我现在正在试着用vllm、lucebox、llama.cpp都跑跑看3.6-27B-Q4,看最多能剩多少kv给小马子,如果上不了256K,那就降低标准跑3.5-9B-FP8,目的是要让马跑的稳跑的顺~
-
@airbrush 哦~我也分享一下:
- Ryzen Threadripper 3970X + 256GB RAM + RTX 5090 32GB + 很多nvme + Ubuntu 24.04 LTS
- MacMini M4 16GB RAM x 2(垃圾东西,只能跑2B之类的耍白痴)
本来只是想养养虾,结果变成天天伺候虾,马一出来我就立刻改养马~马养养觉得数据必须在本地,就开始搞本地模型,前面帮朋友架了个Ryzen 9950X,试试不用显卡也能跑本地模型,有2X t/s吧~但他是Zen5还有AVX512~我的Zen2老古董就必须上显卡了,我这只能买到5090,也就只能先这样了~显存大才是王道,对!64K上下文,马连门都出不去~
我现在正在试着用vllm、lucebox、llama.cpp都跑跑看3.6-27B-Q4,看最多能剩多少kv给小马子,如果上不了256K,那就降低标准跑3.5-9B-FP8,目的是要让马跑的稳跑的顺~
-
@airbrush 哦~我也分享一下:
- Ryzen Threadripper 3970X + 256GB RAM + RTX 5090 32GB + 很多nvme + Ubuntu 24.04 LTS
- MacMini M4 16GB RAM x 2(垃圾东西,只能跑2B之类的耍白痴)
本来只是想养养虾,结果变成天天伺候虾,马一出来我就立刻改养马~马养养觉得数据必须在本地,就开始搞本地模型,前面帮朋友架了个Ryzen 9950X,试试不用显卡也能跑本地模型,有2X t/s吧~但他是Zen5还有AVX512~我的Zen2老古董就必须上显卡了,我这只能买到5090,也就只能先这样了~显存大才是王道,对!64K上下文,马连门都出不去~
我现在正在试着用vllm、lucebox、llama.cpp都跑跑看3.6-27B-Q4,看最多能剩多少kv给小马子,如果上不了256K,那就降低标准跑3.5-9B-FP8,目的是要让马跑的稳跑的顺~
-
@terry 锤兄 你说的Q4KM 是这个https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF/blob/main/Qwen3.6-27B-Q4_K_M.gguf 版本吗?
apex版本 又是哪个版本? 是这个吗 Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP ?
小白 还不太懂

-
@Tony-Wang 是的Q8 KV,可以跑满256k上下文,优化下能跑几个会话,实际上都用128k上下文,多开更合理,hermes 128k体验已经不错了。
