跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

W

wwcd

@wwcd
关于
帖子
9
主题
1
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • 大佬们你 这3090 这成色能入吗? 5500
    W wwcd

    不建议去买任何没有保险的卡,未来 4 年的保障,怎么也值 1000 元。当然,如果是学习就可以买,入门后这个卡一定是跑小任务玩。我就是京东 6399 买的 4 年保的。说实在也是赌,毕竟不是官方旗舰店。
    而且 24g就是拿来练手的,理论上 5500 可以收到 1 手带购买凭证,纯粹玩游戏,没有挖过矿的 卡,而且是风扇卡才能值得入手,这样,直接解决了家用噪音问题。
    其实,新手 24g 反而不是个好开始,真正值得练手卡是 32g 4080s。
    尽量争取上好的啊。我这个半个月 3090 24g 真的好累。
    没有任何必要。本来就不懂,让 hermes 不停烧 token 调试服务器才勉强跑起来。

    AI硬件

  • 严格按推荐购买了入门配置。软件折腾的道路求指引。
    W wwcd

    我同时在 Docker 里布置了两个模型,一个是通过 llama 跑的 3.5。一个是vllm跑老板哥们兄弟强烈推荐的3.6 27b 4b量化稠密。都具有生产力。

    AI硬件 3090

  • 严格按推荐购买了入门配置。软件折腾的道路求指引。
    W wwcd

    7D2FD562-FBE9-499E-B5B7-6BCFE2801FC3.jpeg

    完全是 Hermes 自己去下载了一个 Docker,启动了一个千问 3.5 模型。这是启动参数。
    是的,刚才查到的就是 8010 (llama) 的日志。

    根据最新的数据,它的运行速度非常稳,且符合你的直观感受:

    1. 生成速度(出字):约 108 Token/秒
      (换算成汉字大约是 每秒 70-80 字。对于 35B 这样的大模型,在单张 RTX 3090 上跑这个速度已经属于顶格表现了,非常强劲。)
    2. 读取速度(看你的字):约 1500 Token/秒
      (处理你的输入非常快,几乎是无感知的。)

    为什么“刚才跑了好久”?
    日志里显示,上一次处理了一次 8192 Token(大约 6000 多字)的长输出,耗时 79 秒。
    这就是你觉得“跑了好久”的原因——它正在认真生成长篇内容。
    虽然时间长,但速度一直稳定在 100 TPS 以上,并没有卡顿。

    结论:
    8010 目前处于最佳状态,既聪明(35B 模型)又够用(100 TPS),完全不需要切到 8020 去。就让它这么跑着吧。

    真的和老板说的几乎接近,我从 Deepseek 切换回 本地千问模型除了感觉,盯着看是慢一点。但是用来跑 Hemes 是没有太多感知的,因为它后台就完成任务。慢点,快点。并不重要,完成的效果一样就可以了

    AI硬件 3090

  • 严格按推荐购买了入门配置。软件折腾的道路求指引。
    W wwcd

    如果想买相同配置。所有的问题我都可以回答。
    折腾机器的时候,有几个感触。

    DDR4 价格还是太贵了,建议还是买 DDR3 的主板。我这里刚好有人有这个 DDR4 的主板,本地收的。

    能耗,家用智能插座显示,待机的时候电流是0.25 ,满载1.94 。大概就是 60~70 瓦的待机,满载功率就是 440 瓦,很恒定。

    涡轮风扇的噪音那是有的啊,我用 iPhone 手机的去测试,最靠近风扇的时候有 90 分贝,离远点也有 60 分贝,离开两米远。才能够勉强地接受它,坐在旁边是受不了的,一定要把它放在一个密封的柜子里面,或者是放在远一点的地方。

    6CFFA43C-0885-4E40-A969-0F9A4C0316F9.jpeg

    AI硬件 3090

  • 严格按推荐购买了入门配置。软件折腾的道路求指引。
    W wwcd

    我把论锤者所有的视频都仔仔细细看了个遍,然后严格按照配置推荐,买的配置如下。
    x99华南 2680 cpu 套装188 小主板
    32gb ddr4内存 587
    3090 京东买的6399

    其他配件都是利旧
    振华850电源 原价320全日系,注意课代表点题,老板说,电源一定要买好的,一定要用 10 年以上。
    机箱先马静音,实测对涡轮无静音效果。所以老板说,一定要买个大机箱,未来会更好。
    ssd 爱国者2tb ssd pt7000,放在这个机器被降速为4500m了。

    本来不想装一台新机器的,哪想看中了一句话,就是不就是花钱?买了一个显卡坞吗?
    立马决定买了一个新机。

    系统是 Ubuntu 22,就开始了我的折腾,全部都是用 Hermes。全程没有自己打过一句指令,所以我现在折腾的效果。我自己都不知道。
    总共从认识这个论坛到现在折腾,我的成就感爆棚,因为我什么都不知道。

    我求助的是论坛里高手,真正来指引一下我们这样的小白怎么去真正的去了学习,入门。而不是完全靠着 Hermes。

    AI硬件 3090

  • 补充个短板吧。免费本地音频项目。本地AI自主创作歌曲。效果非常nice。测试结果:完全媲美Suno(Suno收费10-50U)
    W wwcd

    你这是开了我的脑洞。音乐我玩的溜啊。至少可以拿来做个自动伴奏不错的。另外随便混成一个音乐人,也行啊。

    AI音视频画图

  • 定了一台HP OMEN 5090的机器。
    W wwcd

    5090 好机器。我们都是diy。严格按照lcz老师的。x99 洋垃圾 2666 32g ddr3内存,1000w电源,23090配置。
    现在只买了1个3090,看后来到底是
    2还是 另配一个4080s
    只能玩这么多了。

    AI硬件

  • 问完去睡觉,下半个月死磕QWEN 3.6 35B A3B.
    W wwcd

    @Jame-Huang 说:

    运行
    python -m sglang.launch_server
    --model-path ./Qwen3.6-35B-A3B-APEX-I-Quality.gguf
    --model-format gguf
    --context-length 6144
    --kv-cache-dtype int8
    --mem-fraction-static 0.92
    --chunked-prefill-enabled
    --enable-radix-cache
    --chat-template qwen3
    --extra-body '{"enable_thinking": false}'
    --port 8000
    每个参数的作用和为什么这么设
    表格
    参数 作用 为什么设这个值
    --model-path ./xxx.gguf 模型文件路径 替换成你下载的 22.08GB 文件的实际路径
    --model-format gguf 指定模型格式 告诉 SGLang 这是 GGUF 格式的模型
    --context-length 6144 最大上下文长度 24G 显卡的黄金平衡点,再大就需要 offload 权重了
    --kv-cache-dtype int8 KV 缓存精度 3090 最优选择,显存减半,速度不变
    --mem-fraction-static 0.92 显存分配比例 给模型和 KV 缓存分配 92% 的显存(约 22.08GB),刚好放下你的模型 + 6K INT8 KV 缓存
    --chunked-prefill-enabled 分块预填充 避免长 prompt 一次性吃光显存,提升稳定性
    --enable-radix-cache 启用 Radix 缓存 多轮对话中自动复用历史 KV 缓存,速度提升 30% 以上
    --chat-template qwen3 聊天模板 正
    谢谢!!!
    我以为论坛都是大佬。原来云。云。云。
    下次看清楚了。
    必须是实测,分享之类的

    @terry

    LLM讨论区

  • 问完去睡觉,下半个月死磕QWEN 3.6 35B A3B.
    W wwcd

    这 4 个参数 SGLang 0.5.11 实际安装版识别不到:

    | 指南写的参数 | SGLang 实际是否支持 |
    |:---|:---|
    | --model-format gguf | ❌ 没有这个参数(应改用 --load-format gguf) |
    | --chunked-prefill-enabled | ❌ 没有(应改用 --chunked-prefill-size 512) |
    | --enable-radix-cache | ❌ 没有(默认已开,可调 --radix-eviction-policy) |
    | --extra-body | ❌ 不是启动参数(这是 API 请求体参数) |
    
    那篇表格分析是理论推断,但实际 SGLang 0.5.11 装上去跑就是报这些错。要不要把所有参数改成 SGLang 实际支持的,再试一次看能不能过最后那一关?
    

    ╰────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────

    抄作业都发现sglang根本没有你说的参数。请问sglang是那个版本??

    LLM讨论区
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组