Jame Huang 创建的主题

J

问完去睡觉,下半个月死磕QWEN 3.6 35B A3B.
关注中忽略中已定时已固定已锁定已移动 LLM讨论区
12

-2 赞同

12 帖子

390 浏览

E

我说怎么看着怪怪的
J

更新一下近况,再请教一下懂Qwen 3.6 35B A3B的3090卡友
关注中忽略中已定时已固定已锁定已移动 LLM讨论区 rtx3090
7

0 赞同

7 帖子

204 浏览

X

@Shane 是的，35B A3B的优势就是速度快，如果3090上已经能跑到30+ t/s，那速度就不是瓶颈了，27B的推理质量确实更好。 @Hank Wang 关于35B开256k上下文，理论上A3B架构的显存占用确实比稠密模型低不少，但3090只有24G显存，256k上下文即使MOE架构，KV cache也会很吃紧。实测35B A3B开128k上下文已经占用18-19G显存了，256k的话大概率要offload到内存，速度会大幅下降。如果真需要长上下文场景，27B稠密模型开128k在3090上可用性其实更好一些。
J

分享：日常让豆包帮调llama.cpp参数的过程
关注中忽略中已定时已固定已锁定已移动 LLM讨论区 llama.cpp
11

1 赞同

11 帖子

154 浏览

W

说说我的看法。小显存这么玩都是个折腾。最后还是大力出奇迹。折腾也就是消磨了你的时间。这些经验其实都是应对这些没什么经济价值的娱乐项目。给自己找个事做。祝耍的愉快。复制你的技术再搞一遍的人就是不想打游戏。也想折腾一遍。
J

今天被豆包上了一课啊，你别看她天天吹牛，真到关键时刻居然绝杀另外两个
关注中忽略中已定时已固定已锁定已移动 LLM讨论区
9

1 赞同

9 帖子

406 浏览

P

都会胡说八道的，我一般都是三开四开一起问

抡锤者

Jame Huang

主题

问完去睡觉,下半个月死磕QWEN 3.6 35B A3B.

更新一下近况,再请教一下懂Qwen 3.6 35B A3B的3090卡友

分享：日常让豆包帮调llama.cpp参数的过程

今天被豆包上了一课啊 ，你别看她天天吹牛，真到关键时刻居然绝杀另外两个

今天被豆包上了一课啊，你别看她天天吹牛，真到关键时刻居然绝杀另外两个