跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

Foster XuF

Foster Xu

@Foster Xu
关于
帖子
12
主题
2
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • 4 X L20 部署本地模型 ,求大神指点
    Foster XuF Foster Xu

    太复杂了,都是GLM 5.1 + ClaudeCode在干,我也是围观的人... -_-!

    LLM讨论区 nvidia l20 multi-gpu

  • 4 X L20 部署本地模型 ,求大神指点
    Foster XuF Foster Xu

    9a5566a0-ed30-438f-8ada-7be445773609-image.jpeg

    LLM讨论区 nvidia l20 multi-gpu

  • 4 X L20 部署本地模型 ,求大神指点
    Foster XuF Foster Xu

    刚才部署了单卡的情况,请参考。

    INT8 单卡部署成功了!关键数据:

    模型权重:18.06 GiB(从 54 GB 量化到 18 GB)
    KV cache 可用:20.78 GiB
    KV cache 容量:332,662 tokens
    最大并发:2.54x(128K 请求)
    enforce-eager 模式(无 CUDA graph)


    INT8 + CUDA graph: 33.41 tok/s。比 enforce-eager 的 23 tok/s 快了很多,但和 TP=4 BF16 的 34 tok/s 差不多。单卡没快多少,原因是 CUDA graph 部分 capture 失败,回退到了 eager 模式的那些层变慢了。

    现在清理 INT8,试 INT4 (AWQ)。但 vLLM 的在线 AWQ 量化不太稳定,让我改试 --quantization fp8——FP8 量化更轻量,精度损失极小,且 L20 支持 FP8 计算。


    LLM讨论区 nvidia l20 multi-gpu

  • 4 X L20 部署本地模型 ,求大神指点
    Foster XuF Foster Xu

    我做了一下测试,好像数据很垃圾啊

    6c791cda-f8e6-4d9c-a704-3d2d22a13064-image.jpeg

    LLM讨论区 nvidia l20 multi-gpu

  • 4 X L20 部署本地模型 ,求大神指点
    Foster XuF Foster Xu

    昨天我让AI给我分析了一下,他说vLLM更加合适。。。我就没有动了

    0a9e4ae4-529e-4c0f-9823-149bbe687863-image.jpeg

    LLM讨论区 nvidia l20 multi-gpu

  • 4 X L20 部署本地模型 ,求大神指点
    Foster XuF Foster Xu

    14652aaf-972a-48c3-b7cc-bfc9e9fa207e-image.jpeg

    LLM讨论区 nvidia l20 multi-gpu

  • 4 X L20 部署本地模型 ,求大神指点
    Foster XuF Foster Xu

    来回折腾了一下,分别使用了hermes的问答,太慢了。让hermes直接干,有点没底。最后用vsCode的claudCode插件直接操作,AI干完了。

    一遍一遍的各种测试,各种搞,还是AI干起来更快

    649c6c96-79e7-425f-aac9-6f770709bda3-image.jpeg

    LLM讨论区 nvidia l20 multi-gpu

  • 4 X L20 部署本地模型 ,求大神指点
    Foster XuF Foster Xu

    我感觉目前这个配置好像完全没有设置好,确实有点糟蹋。16K 的上下文 Hermes 都跑不起来 -_-!!

    LLM讨论区 nvidia l20 multi-gpu

  • 4 X L20 部署本地模型 ,求大神指点
    Foster XuF Foster Xu

    工作室内多了一个L20工作站,4张显卡。
    怎么更好的配置LLM本地模型呢?

    如果要配置Qwen 3.6 27B 应该怎么设定,才能发挥这套硬件的最大能力呢?请各位大侠赐教。

    特别,目前的配置,好像是有非常大的问题的
    [root@localhost ~]# curl http://localhost:8000/v1/models
    {"object":"list","data":[{"id":"/models/Qwen3.6-27B","object":"model","created":1779713843,"owned_by":"vllm","root":"/models/Qwen3.6-27B","parent":null,"max_model_len":16384,"permission":[{"id":"modelperm-85fd0f5b94fee3e2","object":"model_permission","created":1779713843,"allow_create_engine":false,"allow_sampling":true,"allow_logprobs":true,"allow_search_indices":false,"allow_view":true,"allow_fine_tuning":false,"organization":"*","group":null,"is_blocking":false}]}]}

    29cded22-b89b-4db3-a231-91e3d1e5a1af-image.jpeg

    fb02e408-8234-40ad-a12c-f13d6a7c1557-image.jpeg

    LLM讨论区 nvidia l20 multi-gpu

  • 比较流畅的跑Qwen 3.6 27B 模型本地部署,使用AI PRO R9700,主机怎么配置
    Foster XuF Foster Xu

    散热器,有没有什么推荐的,各位好朋友

    AI硬件

  • 比较流畅的跑Qwen 3.6 27B 模型本地部署,使用AI PRO R9700,主机怎么配置
    Foster XuF Foster Xu

    8313aa77-a65d-47d6-b350-b08866e3117c-image.jpeg
    这两天看了一下,先上单卡,准备采用这个配置,
    以后合适的时间,可以追加一个R9700,组成双卡
    升级双卡的时候,主板和电源都够,应该性能不会有折扣
    大家帮忙看看,谢谢

    AI硬件

  • 比较流畅的跑Qwen 3.6 27B 模型本地部署,使用AI PRO R9700,主机怎么配置
    Foster XuF Foster Xu

    各位大佬,好!

    我准备配置一台电脑,使用AI Pro R9700的显卡。
    短期,先试用一块显卡,跑Qwen 3.6 27B模型
    之后有机会且需要时,增加一块R9700显卡,跑更多或者更大的模型

    请问一下,硬件配置怎么搭配?
    预算1.5~2W是否可以搞定。

    以上,感谢各位大佬

    AI硬件
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组