跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

V

vosrock

@vosrock
关于
帖子
56
主题
1
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • Vide coding 鉴赏大会
    V vosrock

    codex和claude code都是顶级的了

    AI Agent

  • Hermes Agent 快速上手指南
    V vosrock

    有一点不太认同,还是得把它当儿子,骂他是真有效😀

    AI Agent

  • R9700 ai pro 32G 跑Qwen3.6 27B q6k 速度实测
    V vosrock

    只要有30T/S,那么对话就没有问题,PREFILL的话,其实在线的也要时间的,也快不了多少,我之前用PYCHARM用过内嵌的编程助手,开始的几次还对话还挺快的,代码一旦复杂点,对话多几轮,那就不好说是比本地快还是比本地慢了

    AI硬件

  • Vide coding 鉴赏大会
    V vosrock

    各位大佬用什么工具CODING啊,HERMES吗?还是本地的CLAUDE

    AI Agent

  • 7900 XTX + Qwen3.6-27B:Ubuntu + ROCm / Vulkan / MTP 64/128/256K 全部實測整理
    V vosrock

    @williamlouis 让他编程啊,做复杂点的,二三十个代码文件,光代码纯文本都50多K的那种,我这边随便解决几个问题就能跑到100K,我设置了99%才触发压缩,所以很容易知道是真长还是假长

    LLM讨论区

  • 双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测
    V vosrock

    @rock-shi 你这么说有道理啊,一张卡跑HERMES,让HERMES调用另外一张卡跑图片或者视频
    我昨天还想来着,我如果想HERMES生图咋办,再跑COMFYUI没资源了啊,有两张卡就啥都解决了

    AI硬件 nvidia rtx3090 multi-gpu

  • RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S
    V vosrock

    可以试试这几个配置,这个上下文这个速度,我感觉已经没有升级的冲动了
    6310dcdb-b00e-4a26-af40-54f486506e1f.jpg

    AI硬件 nvidia rtx3080

  • (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t/s
    V vosrock

    @stakira 我用的是3080 20G,不就是3000嘛

    AI硬件 nvidia rtx3060 multi-gpu

  • 双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测
    V vosrock

    @applejuice 反正我是一边折腾一边工作,有痛苦的时候,就是这次对话的改动很好,但是显存炸了,这个时候只有3T/S,你得等它慢慢总结,慢慢GIT
    27b也有过不去的坎,这个时候只能你自己告诉它怎么弄,我试过,它搞不定的,让他自己跑一个下午都跑不通,这里几天折腾,我的新软件也已经跑出来了。

    AI硬件 nvidia rtx3090 multi-gpu

  • 双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测
    V vosrock

    爽啊,速度另说,精度提高还是会舒服很多的

    AI硬件 nvidia rtx3090 multi-gpu

  • (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t/s
    V vosrock

    都170K上下文了,任务都跑了一个多小时了,还能有50多TOKEN/S,不过这个不是常态,通常这个时候只能到30T/S,PERFILL只能到350左右

    AI硬件 nvidia rtx3060 multi-gpu

  • (双卡指南) 最丐 Qwen3.6-27b - 3000 元双 RTX 3060 - 50t/s
    V vosrock

    都是3000块,别折腾双卡了,3090另说,不过也没有4080 32G香

    022.png

    AI硬件 nvidia rtx3060 multi-gpu

  • 双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测
    V vosrock

    其实我有点想折腾一下TURBO3非对称KV量化,不知道有没有朋友试过

    AI硬件 nvidia rtx3090 multi-gpu

  • 双 3090(NVLink)跑 Qwen3.6-27B,128K 上下文实测
    V vosrock

    应该还有空间,其实我单卡MTP=2跑到150K上下文都还有40TS左右,下降30%-35%,不过模型量化约等于Q4KS,而且你KV是q8的,这样长上下文改善的不单是速度,更重要的是精度,那些缩进错误,变量名出错的问题会少几次,这些它都会自己纠正,不像35B,API TOKEN就算是存在文件里当变量载入,都经常被截断,靠它自己,这道坎就很难迈过去

    AI硬件 nvidia rtx3090 multi-gpu

  • 如何榨干inter A770,世界上最便宜的agent
    V vosrock

    021.png

    又要考虑让他总结了,不然顶炸了KV,信息会有损失的

    AI Agent intel a770

  • 如何榨干inter A770,世界上最便宜的agent
    V vosrock

    我是不太相信小于20T/S的速度是可用的,除非你完全不交互,我自己的话,低于30TS就开始顶不住了

    AI Agent intel a770

  • 纯外行用ai agent之路
    V vosrock

    是个好办法,跑一两个项目将HERMES的工作习惯整好,然后回到本地跑自己的隐私项目,谢谢指点了

    AI Agent

  • RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S
    V vosrock

    我目前使用HERMES的方法是对话式的,还没达到大佬们自动生产脚本的程度,目前的体验已经比在线的要好,要快,能力一点不弱,甚至更强,因为它读我给它的PDF,又快又准,理解得又好,甚至有的时候我对PDF那个环节拿不准,让他帮我找解决方法比我去看还快,之前一旦对话到后期,显存占用19.7M无论共享显存是0.2G还是多少,就有几率出现个位数的T/S,这个时候就比较煎熬了,因为这个时候项目代码有的还没更新完,停又不好停,但是现在这个设置,达到19.7G显存占用后,速度几乎还能保持35T/S左右,甚至现在共享显存已经到了1G了,还是很稳,对话过程的延时基本就是一两秒就开始给我回复了,到此刻,正式结束HERMES 跑QWEN3.6 27B的参数优化,谢谢大家看我唠叨

    AI硬件 nvidia rtx3080

  • RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S
    V vosrock

    最新优化,我觉得又白嫖了KV了,多模态MTP,长时间N多轮对话直到KV到99%都稳定运行,KV已经可以达到190K.。。。我继续让他做中型的代码任务,
    35B我觉得可以弃用了,MTP基本无效,不时出点“什么缩进错误”,或者“干脆我重写好了”,
    隔壁帖子提到的forcing full prompt re-processing due to lack of cache dataforcing full prompt re-processing due to lack of cache data现象,终于是出现了,不过也就一扫而过,没有感到任何异常

    019.png

    020.png
    改了高亮的地方

    AI硬件 nvidia rtx3080

  • RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S
    V vosrock

    @rock-shi 跑了一下午的代码项目,160K到顶了,170K有机会炸显存,疑问来了,不是说MTP不支持多模态吗?我怎么跑起来了

    AI硬件 nvidia rtx3080
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组