抡锤者

stxpnet

最近在HF社区还是挺火的
下载前想着是穷人的解药，是不是能让 20G显存实现27B 90%的性能和智商？
下载后一测，个人认为和QWEN 3.6 9B一个水平，应该还是欠缺优化，无法恢复原始模型的行为和精度。
16G+带tensor core的显卡应该都可以玩，在占用满90%-95%显卡的情况下，如果模型能正常跑。
速度如果是 x tokens /s
那么你的显卡价值 = RTX3090 24G的市场价 / 55 * x。

我用的是168K上下文，双F16 K V缓存。
简单的问题都是失败，我已经按官方推荐设置温度0.7，开启思考模式。
全程速度都非常稳, 55T/s。

一句话的俄罗斯方块，无法运行。
带提示词的俄罗斯。

完成度还行吧。这个俄罗斯的消行火花挺好看的。但是最后一行经常有残影，很难看。

一句话的坦克大战，跑了4分钟，最后无法运行。

最后再测一下evalbench吧：

时间太长了，分数也不算高，全参数，262K上下文并没有实用性。 SHIFT+DELETE是它最后的归宿。

stxpnet

泡沫要破了，老黄急得头发都白啦。哈哈

stxpnet

@kos-or 但是现在业界不是又通过相互蒸馏，来加强自己的私有模型么？感觉整个世界都在相互杂交，好乱。。。。

stxpnet

不信的只有自己实践了才能信，35B,A3B，大概就是6B的速度，质量嘛，大概15B。其实有个简单的判断方法，你给它配好harnness工具，然后让它写一些复杂点的小游戏。然后观察nvtop曲线。就算你调好参数，让它能满载跑，它写程序也是写100行，过一会儿删80行，电力和时间就这样被浪费了。它只适合做一些简单的任务编排，但是这样的任务,deepseek flash就能做了，也便宜。

这个模型唯一优点的就是刚开始像打了鸡血一样快。140T/S，中后期会掉到80，比较难受。（我一直用0.6温度，不然后期智力下降厉害）。

stxpnet

只看T/S，感觉还不如官方MTP，菜鸟之言。大神莫见笑。

stxpnet

跑qwen 9b,大概开 96K或64K上下文，说不定有惊喜，入门一下还可以。玩本地LLM ，速度，上下文，质量三者难以平衡。这时就不得不惊叹皮衣黄的惊准刀法了。

stxpnet

我以前限制功耗，感觉有点娇贵，而且REDDIT经常说什么最佳功耗甜点。现在入手3个月了，我管你这的那的，保持默认390W，频率让它自己调节。风扇全速拉起：其实空闲的时候把它压在室温+10度，后面高负载的时候最多就72度吧。

stxpnet

扩容显卡，感觉也只能跑MOE。长上下文至少要跑完80%的长度，不掉速不出错，才算合格。

stxpnet

还有个刚出的 KAT-Coder-V2.5-Dev. 也是QWEN 3.6 35B A3B魔改的，号称针对agentic code，也可以试试，用双F16的KV CACHE应该很舒服。

stxpnet

都不如qwen 3.6 27b,你这配置如果是64G显存，跑QWEN 3.5 122B A10应该都能秒杀你说这两个了。一个是A3B小菜鸡，ORNITH似乎是GEMMA+QWEN 3.6 35B A3B的菜鸡和菜鸡能结合出来个啥。

stxpnet

皮衣黄喊话开放AI，三个闭源龙头默默关掉了群聊窗口。

stxpnet

好像前天还是昨天才说显卡锁仓，搞得我们这样的个人想买张卡都要犹犹豫豫。
昨晚皮衣黄又来个开放权重 AI：

再想想2000年的思科吧，股价回购20多年还没完。哈哈，皮衣黄的5万亿英伟达爆了，又要回购多少年呢？@xiaote

stxpnet

海鲜市场那些代抢的靠谱么？我抢了好久，还骂过官方，估计被拉黑了

stxpnet

听大神的没错，我有个256G（实际只能128G用于推理）的DDR4惠普服务器也不知道该如何加显卡。

stxpnet

@咫尺天涯马斯克没回送TESLA，差评

stxpnet

你的硬件配置也没说啊。

stxpnet

自媒体都在抢这个热点，什么KIMI K3冲击老美AI，老黄锁仓涨价，国内供应商集体锁仓准备涨价。老美经济要崩盘啦，云云

stxpnet

白天想好任务，晚上塞给它慢慢跑

stxpnet

deepseek v4看来是拉完了？都没点上名。梁文峰哭晕在厕所

stxpnet

它是自营啊，还有京东二字，不过商品页面也是写的售出非质量问题不退。没有七天无理由

抡锤者

stxpnet

帖子