更新一下近况,再请教一下懂Qwen 3.6 35B A3B的3090卡友
-
从5-1之后就在折腾本地方案,
公司的事情搞得我一天只睡2-3个小时.太累了....
最近一星期研究让hermes帮我写代码,
今天中午看了个富佬 的折腾显卡 视频,悟到了些东西,还只是想到,马上问AI就有了新收获.我就想问QWEN 3.6 35B A3B在3090 24G上面 跑的话,上下文留多少合适?
什么量化版本以及模型加载器能 取得体积 速度 质量的均衡?另外大胆预测一下对平民玩家来说 这个Qwen 3.6 35B A3B开源模型应该是今年下半年唯一的真神.
它的真正威力,懂的应该都懂(如果不懂可以抖音疯狂搜索就知道了)再有:之前发的吹爆豆包的,我收回.... (它那命令能跑完全是因为它注释了之后把命令给我截断了70%多 ,后来我才发现...)
-
从5-1之后就在折腾本地方案,
公司的事情搞得我一天只睡2-3个小时.太累了....
最近一星期研究让hermes帮我写代码,
今天中午看了个富佬 的折腾显卡 视频,悟到了些东西,还只是想到,马上问AI就有了新收获.我就想问QWEN 3.6 35B A3B在3090 24G上面 跑的话,上下文留多少合适?
什么量化版本以及模型加载器能 取得体积 速度 质量的均衡?另外大胆预测一下对平民玩家来说 这个Qwen 3.6 35B A3B开源模型应该是今年下半年唯一的真神.
它的真正威力,懂的应该都懂(如果不懂可以抖音疯狂搜索就知道了)再有:之前发的吹爆豆包的,我收回.... (它那命令能跑完全是因为它注释了之后把命令给我截断了70%多 ,后来我才发现...)
@Jame-Huang 行了,35b打不过27b,这问题到现在还有不明白吗?
-
@Jame-Huang 我个人也在3090上跑过35B A3B,分享下实际经验:
关于上下文长度
24G显存跑22GB的模型,实际上Q4_K_M或Q4_K_S是更稳妥的选择(约15-16GB),这样能留出6-8GB给KV cache和上下文。35B A3B的MoE架构本身在推理时只激活部分参数,但完整模型加载仍需将近22GB。如果你用llama.cpp,建议试试Q4_K_M量化,上下文留8-12K比较平衡。量化版本推荐
- Q4_K_M:质量与体积的甜点,22GB的模型压到约15GB,24G显存刚好能跑
- IQ4_NL:更激进的量化,体积更小但质量下降明显,不推荐
模型加载器
- llama.cpp 推荐用最新版(PR #22673 以上支持MTP加速),用
-ngl 99把所有层放GPU - 如果显存不够,offload到系统内存的话速度会降很多,建议优先降量化等级
terry大佬说35B打不过27B,这个要看场景:35B A3B的MoE在小batch下有速度优势(每次只激活3.5B参数),单次推理更快。但27B的dense模型在长上下文、复杂推理任务上确实更稳定。如果你主要做代码生成(看你提到用Hermes写代码),35B A3B的生成速度优势会更明显。
-
从5-1之后就在折腾本地方案,
公司的事情搞得我一天只睡2-3个小时.太累了....
最近一星期研究让hermes帮我写代码,
今天中午看了个富佬 的折腾显卡 视频,悟到了些东西,还只是想到,马上问AI就有了新收获.我就想问QWEN 3.6 35B A3B在3090 24G上面 跑的话,上下文留多少合适?
什么量化版本以及模型加载器能 取得体积 速度 质量的均衡?另外大胆预测一下对平民玩家来说 这个Qwen 3.6 35B A3B开源模型应该是今年下半年唯一的真神.
它的真正威力,懂的应该都懂(如果不懂可以抖音疯狂搜索就知道了)再有:之前发的吹爆豆包的,我收回.... (它那命令能跑完全是因为它注释了之后把命令给我截断了70%多 ,后来我才发现...)
@Jame-Huang 35b除了速度快点,其他方面没法跟27b比的,reddit上, benchmark都是明摆的事,如果你坚持35b是下半年的唯一真神,那我们没必要反驳,是真爱就好。萝卜白菜嘛。
-
@Jame-Huang 我个人也在3090上跑过35B A3B,分享下实际经验:
关于上下文长度
24G显存跑22GB的模型,实际上Q4_K_M或Q4_K_S是更稳妥的选择(约15-16GB),这样能留出6-8GB给KV cache和上下文。35B A3B的MoE架构本身在推理时只激活部分参数,但完整模型加载仍需将近22GB。如果你用llama.cpp,建议试试Q4_K_M量化,上下文留8-12K比较平衡。量化版本推荐
- Q4_K_M:质量与体积的甜点,22GB的模型压到约15GB,24G显存刚好能跑
- IQ4_NL:更激进的量化,体积更小但质量下降明显,不推荐
模型加载器
- llama.cpp 推荐用最新版(PR #22673 以上支持MTP加速),用
-ngl 99把所有层放GPU - 如果显存不够,offload到系统内存的话速度会降很多,建议优先降量化等级
terry大佬说35B打不过27B,这个要看场景:35B A3B的MoE在小batch下有速度优势(每次只激活3.5B参数),单次推理更快。但27B的dense模型在长上下文、复杂推理任务上确实更稳定。如果你主要做代码生成(看你提到用Hermes写代码),35B A3B的生成速度优势会更明显。