跳转至内容
  • 站点信息公告

    14 132
    14 主题
    132 帖子
    terryT
    下次你可以自己置顶
  • 显卡,主板,CPU,内存,SSD,小主机,服务器等AI硬件~

    118 2k
    118 主题
    2k 帖子
    5
    v0.22.1-cu129-ubuntu2404 VLLM_NVFP4_GEMM_BACKEND 因爲deprecated, 將由linear-backend自動選擇 VLLM_USE_FLASHINFER_MOE_FP4 因爲deprecated, 將由moe-backend自動選擇 測試結果 | model | test | t/s | peak t/s | ttfr (ms) | est_ppt (ms) | e2e_ttft (ms) | | :--------------------------------------- | ---------------: | ----------------: | -----------: | -----------------: | -----------------: | -----------------: | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 | 3815.72 ± 2638.08 | | 1066.49 ± 675.13 | 946.43 ± 675.13 | 1066.49 ± 675.13 | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | tg480 | 71.54 ± 3.67 | 89.33 ± 1.70 | | | | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d1000 | 7097.86 ± 469.13 | | 551.38 ± 27.36 | 431.33 ± 27.36 | 551.38 ± 27.36 | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | tg480 @ d1000 | 72.91 ± 1.96 | 86.67 ± 2.05 | | | | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d5000 | 6293.28 ± 200.29 | | 1241.33 ± 35.85 | 1121.28 ± 35.85 | 1241.33 ± 35.85 | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | tg480 @ d5000 | 71.79 ± 1.34 | 90.00 ± 0.82 | | | | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d10000 | 5764.98 ± 66.54 | | 2210.31 ± 24.36 | 2090.26 ± 24.36 | 2210.31 ± 24.36 | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | tg480 @ d10000 | 71.77 ± 5.24 | 86.00 ± 5.35 | | | | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d20000 | 5020.15 ± 9.69 | | 4512.04 ± 8.31 | 4391.99 ± 8.31 | 4513.21 ± 8.16 | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | tg480 @ d20000 | 74.68 ± 1.77 | 94.00 ± 2.16 | | | | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d50000 | 3634.37 ± 3.95 | | 14441.41 ± 15.57 | 14321.36 ± 15.57 | 14444.10 ± 15.13 | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | tg480 @ d50000 | 65.42 ± 5.26 | 83.33 ± 7.41 | | | | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d100000 | 2500.68 ± 0.47 | | 40928.48 ± 7.63 | 40808.42 ± 7.63 | 40933.15 ± 7.29 | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | tg480 @ d100000 | 73.40 ± 4.21 | 85.00 ± 2.45 | | | | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d150000 | 1900.32 ± 1.39 | | 80132.00 ± 58.27 | 80011.94 ± 58.27 | 80138.64 ± 57.60 | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | tg480 @ d150000 | 67.87 ± 1.65 | 79.67 ± 3.30 | | | | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | pp2048 @ d200000 | 1535.79 ± 1.74 | | 131680.08 ± 149.90 | 131560.02 ± 149.90 | 131688.59 ± 149.41 | | Huihui-Qwen3.6-27B-abliterated-NVFP4-MTP | tg480 @ d200000 | 56.88 ± 2.29 | 73.33 ± 2.05 | | | | GPT結論 結論 cu130-0.20 的主要優勢在 prefill throughput 和 TTFT,特別是短到中等 context 的 prompt processing。 更新後的 cu129-0.22 在 token generation / decode throughput 上比之前更強,平均 tg480 generation t/s 約比 cu130-0.20 高 4.6%。 整體而言,若 workload 偏 prompt-heavy、RAG、長 prompt prefill,cu130-0.20 較合適;若 workload 偏長時間生成 token,cu129-0.22 較合適。
  • 本地,云端AI大模型性能,部署方案,性价比

    90 1k
    90 主题
    1k 帖子
    T
    @Tony-Wang 可以跑的,还行。我max model len也是放满262k的 还行:[image: 96397515-fb05-46b8-b09a-8a748060b8e3.jpeg]
  • AI音视频,画图,ComfyUI,TTS,LTX,Wan,Seedance,Kling等。

    37 428
    37 主题
    428 帖子
    CS6C
    @sirwang 了解,下週上工我來試試看,剛好公司有個部署工單可以玩一下,但我們之前都是手動切分實體卡分派任務,是有在想嘗試搞類似 Runpod.io 的架構, AMD 卡我就不確定了,只知道雙卡跑同一個模型的做法,第二張卡還沒到,到時研究下
  • Hermes, OpenClaw, Codex, CluadeCode,TRAE, Cursor, OpenCode等

    47 590
    47 主题
    590 帖子
    lxbsL
    Hermes agent 折腾了一阵子了,来汇报一下 这家伙确实费tokens,Deepseek把价格打下来后,不敞开用每天差不多3.5左右[image: 7816a7c4-3a9a-4f7c-97c8-0f7a553b6057.jpeg] 敞开用的话估计10块差不多。 也分别测试了很多模型,从性价比和智力情况以及反应速度上说,deepseek-v4-flash还是占优,现在就作为主模型了。 [image: 9c221286-9168-47d7-832d-c19edce3d9b2.jpeg] 本地小模型也测试了一下,智力堪忧,有时候直接空口白牙说谎,没做的配置文件死活告诉我说已经搞好了,自己直接改了配置文件死活不承认。 [image: 1ac1c97b-ebbf-409c-85f2-bbd377dd5765.jpeg] 关于辅助模块的模型,火山引擎送了很多免费tokens,每天循环送。所以我把各个辅助模块配置到了这里。[image: 70e69f98-3260-4b7f-aad4-b5895aa1c682.jpeg] [image: 18db17ba-b68f-4667-83da-5899b654a1c5.jpeg] 关于Hermes 的使用大家讲的都很多,我再次不多赘述。接下来讲讲部署环境。 我的家庭网络环境里有2台ALL IN 1主机,一台宿主机是windows,一台是PVE。 两台机器配置是一样的。都是J3455的老机器。8G内存,120G固态做主系统,双4T机械垂直盘。 [image: 378b5fa5-b7f3-4127-8c1f-d65a53ad5d81.jpeg] [image: 611a92b9-f365-4b90-a4bb-90b5324cb8b9.jpeg] Hermes agent 安装在这台windows的机器上。这台机器共虚拟了4个虚拟环境,一个debian,2个软路由openwrt,因为我在海外的原因采用双网关,其中一台软路由通过VLAN对接特定wifi的ssid,直接跑回国内,用来处理一些海外无法访问的应用,比如银行啊之类的,总之就是假装在国内。 [image: 74ae4a98-8f6e-45d6-920e-fc9cd433c72d.jpeg] 一台处理去广告以及dns加速,双线切换以及多路分流以及CF隧道,虚拟局域网,内网穿透等工作。 [image: b19c5029-2685-4f08-a40e-efa85d9d7d25.jpeg] 其中一台win2003系统偶尔跑一些需要偶尔长时间开的任务,比如跑个下载啥的。 接下来重点说说安装Hermes agent 的debian。 [image: 6c47c538-8fd3-45a0-8c8f-f3aa915d0f69.jpeg] CPU给开了2个核心,内存2G,硬盘50G放在ssd上。再开启了2G的虚拟内存。 [image: 14a62d0c-3549-42fd-95b4-57520db6b7cb.jpeg] 实际使用过程中这配置足够。 [image: 31155532-5aaa-444f-87da-8ffa3b95eb96.jpeg] Hermes agent 安装的使用了容器安装。面板使用了开源的1Panel。 [image: a653a187-bc56-4339-b842-68ff93916cb7.jpeg] [image: f29f9de0-5b78-4daf-941d-17ba7b22bc9b.jpeg] 可能是年龄大了,记忆力有些下降,记不住那么多命令了,使用面板就是为了简单,修改配置文件什么的都很方便。 [image: 67a8e97d-df4b-41e3-89a6-bc193ba8dbc2.jpeg] 对接聊天工具也很直观,简单,点几下就搞定了,不用消耗tokens,让agent配置还得消耗tokens。 似乎大概就这样了。 总之来说,不用单独买一台机器给agent,开个虚拟机给她完全狗用了,绿色环保又管饱。 [image: a2080234-f74f-44cf-bcf0-02cbd56c6691.jpeg]
  • 油管,B站,Tiktok,X,Instagram,Facebook等自媒体运维经验。

    9 93
    9 主题
    93 帖子
    terryT
    这个没有任何影响,频道发布的时候,归属地有点影响,如果已经发布了,就没啥影响了,油管是从观众偏好判断频道的,而非发布地点。我的英语频道发布地址是美国,但是流量池从东南亚开始给,后来美国才成为主力。两个频道都是如此,可能也和你的系统指纹有关,供你参考。
  • RAG/Lora微调等话题。

    3 18
    3 主题
    18 帖子
    williamlouisW
    4090.。。48G 真的很能打。一代神卡了。
  • 网站建设,网络赚钱相关话题

    10 95
    10 主题
    95 帖子
    terryT
    本站点坚持以AI技术为核心,交流谈论赚钱,本网站亦无需翻墙即可访问。有违规者,没有警告程序,直接禁言或者封号。由于站长本人在中国大陆,必须遵守法律法规,所以请见谅!
  • AI行业动态

    27 70
    27 主题
    70 帖子
    terryT
    这个是免费的?还是说比官方便宜?
  • 随便聊聊

    76 771
    76 主题
    771 帖子
    Tony WangT
    下一座AI数据中心,可能就挂在你家墙上 5 月 5 日,加州创业公司 Span 和英伟达(Nvidia)公布了一项合作:把一个名叫 XFRA 的白色金属箱挂在美国普通住宅外墙上,紧挨着空调外机和电表。每个箱子里塞着 16 块 Nvidia Blackwell GPU、4 个 AMD EPYC CPU 和 3TB 内存,是企业级 AI 推理服务器的标准配置。 要是能白嫖这个的算力, 那就理想了. 它给钱, 但是不知道能不能覆盖住电费.