我试了下bee分支的draft,编程场景,开think,多工具调用,draft命中绿和覆盖率几乎没用,不如不开
B
blackjack
@blackjack
-
Lucebox DFlash + PFlash 编译与部署指南 Qwen3.6-27B 方便抄作业 (Linux) -
歪个楼,有玩 3D 打印的吗?😀试试build123d吧
-
4060Ti 8G显存还能部署本地大模型吗?玩玩Hermes@Tiger 我做过测试。如果用在线的api 做一个作品。在同一个平台。你再起一个账号。只要提示词给力。你的作品就会被别人免费带走。你也可以试试。亲身经历。
所以我才来老特这混混。
本地算力对我们也一样重要。这个没想到啊,商业核心,无论大小,都得本地啊。
-
请教大佬:Q4相比FP8,运行qwen3.6 27B,质量下降很大么?模型量化应该不明显吧。精度主要是在k cache上吧,为啥没见人讨论turboquant3呢? 我现在用的模型q4 k_p,k tq3, v tq2, ctx128k
-
今天被豆包上了一课啊 ,你别看她天天吹牛,真到关键时刻居然绝杀另外两个llama就老老实实单slot使用,把agent的优化到极致,比如我用hermes,全部hack了一遍,做到绝不出现forcing full prefill,各种tools调用不要反复出错。上下文132k,用到90%输出还能有个20tps,我现在很满意了。 笔记本5090