codex和claude code都是顶级的了
vosrock
-
Vide coding 鉴赏大会 -
Hermes Agent 快速上手指南有一点不太认同,还是得把它当儿子,骂他是真有效

-
R9700 ai pro 32G 跑Qwen3.6 27B q6k 速度实测只要有30T/S,那么对话就没有问题,PREFILL的话,其实在线的也要时间的,也快不了多少,我之前用PYCHARM用过内嵌的编程助手,开始的几次还对话还挺快的,代码一旦复杂点,对话多几轮,那就不好说是比本地快还是比本地慢了
-
Vide coding 鉴赏大会各位大佬用什么工具CODING啊,HERMES吗?还是本地的CLAUDE
-
7900 XTX + Qwen3.6-27B:Ubuntu + ROCm / Vulkan / MTP 64/128/256K 全部實測整理@williamlouis 让他编程啊,做复杂点的,二三十个代码文件,光代码纯文本都50多K的那种,我这边随便解决几个问题就能跑到100K,我设置了99%才触发压缩,所以很容易知道是真长还是假长
-
双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测@rock-shi 你这么说有道理啊,一张卡跑HERMES,让HERMES调用另外一张卡跑图片或者视频
我昨天还想来着,我如果想HERMES生图咋办,再跑COMFYUI没资源了啊,有两张卡就啥都解决了 -
RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S可以试试这几个配置,这个上下文这个速度,我感觉已经没有升级的冲动了

-
(双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t/s@stakira 我用的是3080 20G,不就是3000嘛
-
双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测@applejuice 反正我是一边折腾一边工作,有痛苦的时候,就是这次对话的改动很好,但是显存炸了,这个时候只有3T/S,你得等它慢慢总结,慢慢GIT
27b也有过不去的坎,这个时候只能你自己告诉它怎么弄,我试过,它搞不定的,让他自己跑一个下午都跑不通,这里几天折腾,我的新软件也已经跑出来了。 -
双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测爽啊,速度另说,精度提高还是会舒服很多的
-
(双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t/s都170K上下文了,任务都跑了一个多小时了,还能有50多TOKEN/S,不过这个不是常态,通常这个时候只能到30T/S,PERFILL只能到350左右
-
(双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t/s都是3000块,别折腾双卡了,3090另说,不过也没有4080 32G香

-
双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测其实我有点想折腾一下TURBO3非对称KV量化,不知道有没有朋友试过
-
双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测应该还有空间,其实我单卡MTP=2跑到150K上下文都还有40TS左右,下降30%-35%,不过模型量化约等于Q4KS,而且你KV是q8的,这样长上下文改善的不单是速度,更重要的是精度,那些缩进错误,变量名出错的问题会少几次,这些它都会自己纠正,不像35B,API TOKEN就算是存在文件里当变量载入,都经常被截断,靠它自己,这道坎就很难迈过去
-
如何榨干inter A770,世界上最便宜的agent
又要考虑让他总结了,不然顶炸了KV,信息会有损失的
-
如何榨干inter A770,世界上最便宜的agent我是不太相信小于20T/S的速度是可用的,除非你完全不交互,我自己的话,低于30TS就开始顶不住了
-
纯外行用ai agent之路是个好办法,跑一两个项目将HERMES的工作习惯整好,然后回到本地跑自己的隐私项目,谢谢指点了
-
RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S我目前使用HERMES的方法是对话式的,还没达到大佬们自动生产脚本的程度,目前的体验已经比在线的要好,要快,能力一点不弱,甚至更强,因为它读我给它的PDF,又快又准,理解得又好,甚至有的时候我对PDF那个环节拿不准,让他帮我找解决方法比我去看还快,之前一旦对话到后期,显存占用19.7M无论共享显存是0.2G还是多少,就有几率出现个位数的T/S,这个时候就比较煎熬了,因为这个时候项目代码有的还没更新完,停又不好停,但是现在这个设置,达到19.7G显存占用后,速度几乎还能保持35T/S左右,甚至现在共享显存已经到了1G了,还是很稳,对话过程的延时基本就是一两秒就开始给我回复了,到此刻,正式结束HERMES 跑QWEN3.6 27B的参数优化,谢谢大家看我唠叨
-
RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S最新优化,我觉得又白嫖了KV了,多模态MTP,长时间N多轮对话直到KV到99%都稳定运行,KV已经可以达到190K.。。。我继续让他做中型的代码任务,
35B我觉得可以弃用了,MTP基本无效,不时出点“什么缩进错误”,或者“干脆我重写好了”,
隔壁帖子提到的forcing full prompt re-processing due to lack of cache dataforcing full prompt re-processing due to lack of cache data现象,终于是出现了,不过也就一扫而过,没有感到任何异常

改了高亮的地方 -
RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S@rock-shi 跑了一下午的代码项目,160K到顶了,170K有机会炸显存,疑问来了,不是说MTP不支持多模态吗?我怎么跑起来了