跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

王一民王

kop1989

@王一民
关于
帖子
44
主题
3
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • 纯外行用ai agent之路
    王一民王 王一民

    @菠菜多 是这样的,而且即便是有本地算力的朋友,也可以利用在线API高prefill、decode的性能,先跑通自己需要的工作流以及需求。固定skill之后,利用本地算力再介入负责执行。

    这样既能高效的搭建工作流,又可以保障实际运行时的隐私与信息安全。

    LocalLLM的优势是能提供稳定的基座算力,跟头部在线API比,无论是智力、上下文长度、还是性能,还是有不小的差距。

    我预测,支持开源自部署的模型,一定会一直维持现在这种接近顶级模型85%~90%左右的能力。无论过高还是过低,开源模型这个产业逻辑都成立不了。

    AI Agent

  • 大家千万不要同时通过几个渠道来使用Hermes的Profiles,会导致它精神分裂的。
    王一民王 王一民

    没太搞懂这个“精神分裂”的原理
    1、对于memery和User.md的修改是实时的。他判断需要修改,就会实时修改。
    2、不同渠道、相同渠道的不同聊天框,都是完全不同的两个session,他们分别有各自的sessionID,只要你知道sessionID,即便是不同渠道你可以随时调取回来。session的内容也是实时记录的。

    你认为的分裂,是指他们的聊天记录不互通?理论上不会出现这个问题。
    tool、skill等工具的初始化明确说了是要重启hermes主进程才会生效的。

    AI Agent

  • 请问4090D跑千问27b稠密够了吗
    王一民王 王一民

    24GB显存用来驱动Agent?驱动Agent是够的,Coding不够。

    另外,目前26/05/19这个时间节点,4090 48GB的价格和5090/5090D 32GB几乎一致。需要衡量思考Blackwell架构和16GB显存之间的价值。

    我个人的理解是,如果你目前的需求,必须要48GB显存才能解决,那就只能上4090 48GB,否则,Blackwell(更强的推理能力,更好的8位量化性能)的价值是更大的,仅供参考。

    AI硬件

  • Openclaw與Hermes的一個小比較
    王一民王 王一民

    另外,部署localLLM尽量不要用Agent工具一口气自动部署,这个东西有很多参数,会共同影响结果,最好是遵循AI、大神分享的建议,然后自己手动操作。这样最起码能知道变量有哪些。

    让AI自动化操作之后,出问题,或者模型的表现不理想,其实想调整时很难的,因为你没有概念,很难表述清楚你到底要什么。

    AI Agent

  • Openclaw與Hermes的一個小比較
    王一民王 王一民

    @Henry-Chiu 我个人的经验是,如果不知道该从何入手,最好的方式就是抄作业,先用一个大神的环境先跑起来,然后使用的过程中再根据自己的实际情况再逐步微调。这样相对而言成功率高一些,仅供参考。

    具体可以直接让chatGPT推荐一下操作步骤,或者在本论坛,reddit的localLLM找下看看。

    AI Agent

  • 关于论坛建设方向以及版主、高积分会员福利
    王一民王 王一民

    确实,目前能如此垂直的信息源,除了reddit的localllm分区之外,就是这里了。

    我自觉也是比较幸运,能在信息和能力比较完备的情况下,经历机缘巧合,亲身经历一个新赛道的BBS的起步。

    感谢时代,感谢Copilot的数次涨价撕毁合同(如果不是github不做人,我也不会研究localLLM、开源Agent),感谢锤哥。

    站点公告

  • Openclaw與Hermes的一個小比較
    王一民王 王一民

    这个输入(prefill)速度还是不对,290t/s太慢了,参考https://api-inference.huggingface.co/Qwen/Qwen3.6-27B-FP8/discussions/11

    这个帖子,他的prefill速度能到4000,虽然他是48GB的魔改版,但是也不会有这么大的差异。

    AI Agent

  • 求指导:谁快来把我打醒
    王一民王 王一民

    相比较方案1、2来讲,方案2更靠谱。

    mac体系的文生图效率超低(同样分辨率的图片,生成时间大概是同价格N卡的10倍)96GB内存也是非常尴尬,论跑小模型,性能被同价格显卡吊打,论跑大Moe模型,内存不够。

    如果说抛去必须LocalLLM的理念不谈,方案3其实最合理。你可以通过在线API先挖掘你的需求和工作方式,等真正出于成本、法规限制(比如你需要NSFW图片、或者一些名人的梗图)、工作流稳定性等考量,再去考虑localLLM,其实是更负责任的选择。

    AI硬件

  • Openclaw與Hermes的一個小比較
    王一民王 王一民

    @Henry-Chiu 主要关注下上下文窗口和kv量化的配置。

    ollama这个工具我很长时间不用了,目前主要以llama.cpp为主。
    个人实测,在llama.cpp下,开满了256K的话,Q4_K_M,VRAM占用应该是28GB左右。

    使用参数如下:
    --ctx-size 262144
    --flash-attn on
    --cache-type-k q8_0
    --cache-type-v q8_0
    --temp 0.6
    --top-p 0.95
    --top-k 20 \

    AI Agent

  • Openclaw與Hermes的一個小比較
    王一民王 王一民

    @Henry-Chiu 如果是windows环境的话,wsl2是一个非常便于上手的选择。而且wsl2环境和windows环境的文件等可以灵活共享。

    不用担心命令行环境的问题,只要按照wsl2的教程一步步来,是没有任何门槛的。
    so,why not

    如果遇到什么困惑的问题,或者和hermes官方wsl教程有不一致的地方,可以问问openAI的思考模式或者deepseek的专家模式试试看。
    就直接把错误,或者屏幕上的信息复制给他就好。openAI更方便,直接截图都可以。

    AI Agent

  • Openclaw與Hermes的一個小比較
    王一民王 王一民

    用的是最新出的windows native版本?目前这个版本还在early beta,所以肯定会有这样那样的问题。
    从这个报错信息来看,应该是他这个安装脚本写的就有语法错误。多了逗号。

    btw:基本上所有hermes生态相关的东西,都跟linux强相关,所以目前来看,研究他的windows安装脚本,弊大于利。
    当然,如果楼主还是想继续的话,可以手动编辑一下这个脚本,删掉上面报错的两行逗号,就类似这样:

    [string]$Branch = "main"

    [string]$HermesHome = "$env:LOCALAPPDATA\hermes"

    然后再试试。

    AI Agent

  • Openclaw與Hermes的一個小比較
    王一民王 王一民

    1、openClaw和Hermes是否有完全一致的MCP、Skills、Tool、记忆配置?
    2、可以尝试用终端执行hermes命令,然后通过观察他终端的过程指令来区分哪个步骤是错误的。然后从而区分是模型能力问题,还是缺少工具,还是其他。

    AI Agent

  • 部署llm用于写代码,构建本地项目
    王一民王 王一民

    还有一点值得补充,Coding这个场景,算是对于量化比较敏感的场景。有个对于量化质量的专用参数:Mean KL Divergence。可以理解为量化后的模型和全尺寸模型的“差异”
    根据unsloth的数据,Qwen3.6系列的量化失真,大概是下图中绿色的点:
    39bc6a56-cad2-4c17-9d19-f6329ca673c4-image.jpeg
    可以理解为,Q2量化和Q6量化之间,插了一个数量级的差异。

    当然,严谨来讲,这个“差异”也不完全是往坏的差异。就跟你买彩票,你输错了号码也一样能中奖。
    但是从控制变量,生产环境的稳定性的角度,还是要以贴近全量模型为目标。

    LLM讨论区

  • Pro 6000都是怎么玩?
    王一民王 王一民

    另,小特在这个贴子的回复引用的论据有诸多硬伤,可以忽略。

    AI硬件

  • Pro 6000都是怎么玩?
    王一民王 王一民

    PRO 6000如果只聊单线程prefill和decode性能,只是和5090相当。
    PRO 6000的优势主要在于ECC认证的显存、官方静音涡轮卡(MAX-Q版本)以及多出来的64GB显存。

    所以公式很简单,如果你认为64GB ECC认证显存的价值>40000人民币,或者你想玩静音阵列(比如MAX-Q * 3)跑deepseek v4 flash,你就可以买。
    否则就不买。

    这里有几个原因。
    1、96GB显存,其实跑不下大的Moe模型。122B的Q5量化就爆了。
    2、对于小模型,96GB显存又过于overkill。
    3、多个模型服务跑在一张显卡上,目前没有一个最佳实践做资源隔离。会降低效率。(因为你一定是用Agent来驱动LLM,所以必然是多个模型同时运行)。

    AI硬件

  • 部署llm用于写代码,构建本地项目
    王一民王 王一民

    如果是必须localLLM且用Claude Code工具,qwen3.6-27B,大于Q4的量化、且开满256K上下文是唯一的选择。

    因为Claude Code的提示词比较多,逻辑比较绕。用运行参数太少的moe模型很容易忘事。Claude Code的调用机制也没有针对极小参数的运行做优化。所以会导致很长时间的空转和纠错。

    确定用Qwen3.6-27B之后,可选项就很少了。
    1、买显存>=32GB的N卡的台式机。(超预算)
    2、买显存>=32GB的A卡的台式机。
    3、买M5 MAX 128GB内存的MacBook Pro 16寸(超预算)
    4、等M5 Ultra的 Mac Studio。(超预算)

    这三者各有利弊。
    1、32GB显存开Q5+256K上下文有点紧张。
    2、A卡的性能不如N卡,R9700的prefill不过千,decode大概在30+不到40。(对应的5090可以做到prefill 3000+,decode 75+)
    3、prefill太慢,大概700t/s(数据来自极客湾实测)只能选择16英寸版本,14寸版本散热规模不够,容易撞墙。
    4、目前还没上市。但可预计的prefill性能也不会有太大提升。

    LLM讨论区

  • 求助:老硬件平台:Z77+E1230+16GDDR3+3090_24G Ubuntu 能跑Qwen3.6 27B吗
    王一民王 王一民

    @yang-tae 故意输入多一点提示词,比如粘一个文章,跑一下,主要看Prompt速度,如果Prompt速度不能在500以上,连Hermes的体验就会很差了。

    因为hermes会频繁对LLM发起调用,每一次都要走prefill,所以对于输入速度要求比较高。

    hermes有很多系统提示词,冷启动的第一次请求,提示词输入在5k左右这个量级。如果是500t/s的输入速度,就要罚站10秒钟。你可以想象,Hermes每跑一行命令,都要罚站10秒。

    AI硬件

  • 📡 AI日报 5/15 | Claude Sonnet 4.6上线、Anthropic战略收购、斯坦福报告AI投资3447亿美元、理想汽车自研AI芯片
    王一民王 王一民

    sonnet4.6,乍一看以为是“历史上的今天”XD

    我在写skill的时候,一般会让他根据周期来查。比如周报就是最近一周,日报就只限今天。
    然后google news的源有时候不够稳定,我会加上比如hacker news这种做信息复核。

    资讯

  • 2026年6月1日开启版主申请
    王一民王 王一民

    另:可以让xiaote来分析一下。这也是我最近玩的,我在扒这个网站的人的历史发言,然后给每个人帖标签XDDD

    推荐PUA话术:获取https://www.v2ex.com/member/sentinelK这个人的历史发帖与回帖内容,帮我分析一下这个人的三观、性格特点、技术栈。并进行一句话总结。

    站点公告

  • 2026年6月1日开启版主申请
    王一民王 王一民

    刚看到还有这么个分区……占坑申请Agent区版主。15年软件工程经验。25年初在Agent概念不成熟的前提下,自建提示词工程,带领3人,通过hack Copilot的ask模式的前提下实现了Agent loop,成功在两个月内,迁移一个五百万行代码的成熟产品到国产化ARM64环境。并成功交付。

    机缘巧合刷到锤哥的localLLM视频,于是来到这里。

    个人没什么诉求,只是因为职业习惯,喜欢钻研业界的新思路和新模式,期待和大家共同学习,共同进步,拥抱新的世界。
    如果锤哥想了解我,可以关注我的V2EX账号的历史发言:https://www.v2ex.com/member/sentinelK

    站点公告
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组