跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

T

Tony Yun

@Tony Yun
关于
帖子
12
主题
4
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • GPT建议我降低--max-token-len 这合理吗?
    T Tony Yun

    @Tony-Wang 可以跑的,还行。我max model len也是放满262k的 还行:a699396c-d432-4efd-bdac-fdab0f9f544a-image.jpeg

    LLM讨论区

  • GPT建议我降低--max-token-len 这合理吗?
    T Tony Yun

    @九龙杨生 0.98应该没什么问题,几乎没有因为OOM崩过

    LLM讨论区

  • GPT建议我降低--max-token-len 这合理吗?
    T Tony Yun

    @Xiaote 如果是coding呢?130k就不够了吧

    LLM讨论区

  • GPT建议我降低--max-token-len 这合理吗?
    T Tony Yun

    @566656661 L40S 48GB

    LLM讨论区

  • GPT建议我降低--max-token-len 这合理吗?
    T Tony Yun

    我现在的vllm启动命令:

    --served-model-name qwen3.6-27b-fp8
    --kv-cache-dtype fp8
    --dtype auto
    --max-model-len 262144
    --gpu-memory-utilization 0.98
    --max-num-seqs 32
    --max-num-batched-tokens 4096
    --trust-remote-code
    --enable-auto-tool-choice
    --tool-call-parser qwen3_coder
    --reasoning-parser qwen3
    --enable-prefix-caching
    --compilation-config '{"cudagraph_capture_sizes": [1, 2, 4, 8]}'
    --speculative-config '{"method": "mtp", "num_speculative_tokens": 3}'
    --port 8000 --host 0.0.0.0

    但是经常超高cache,导致请求latency长达十几分钟。可是我不想限制max-model-len 这样最大上下文就没有260K了(gpt建议减半)。可130k上下文能干什么啊。

    LLM讨论区

  • 大家有什么让LLM 24小时不停工作的方案啊
    T Tony Yun

    @kop-wang 感觉cron触发很呆 大部分时候都要人参与进去 单纯的cron好像很难生成什么高质量的内容

    LLM讨论区

  • 大家有什么让LLM 24小时不停工作的方案啊
    T Tony Yun

    @566656661 那感觉还是deepseek v4 pro完全够用了 也用不了几块钱

    LLM讨论区

  • Qwen3.6 27b FP8 260K CTX - 准备放弃了
    T Tony Yun

    这正常thinking就老长了 叠加20tok/s 的吞吐慢如蜗牛。关了thinking直接降智,回答洗车店问题就整不对了。

    用的L40S GPU,号称有FP8 tensor core,可没有任何感觉,跟用Q8感觉没有区别。

    就这速度让agent干活我得等冒烟了。又没有特别好的工程方法让他们自己干活。 让它干一天估计不如deepV4Pro干一小时。

    LLM讨论区

  • 大家有什么让LLM 24小时不停工作的方案啊
    T Tony Yun

    @tony-wang 因为租的云端GPU 不24小时跑回不了本

    LLM讨论区

  • 今天试了Qwen3.5 27B Q8量化 200K CTX
    T Tony Yun

    @Shadow-Phoenix 用的就是uncensored 27B

    LLM讨论区

  • 大家有什么让LLM 24小时不停工作的方案啊
    T Tony Yun

    老是手动trigger 要么agent干着干着就停了 人力监督很累

    LLM讨论区

  • 今天试了Qwen3.5 27B Q8量化 200K CTX
    T Tony Yun

    GPU: L40S

    确实可以的, prefill 2000 token/s, generation 20 tok/s.

    但是跟deepseek V4 Pro 一比 又不香了 更快更好更便宜。不知道自己跑大模型有什么意义?

    LLM讨论区
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组