抡锤者

Tony Yun

@Tony-Wang 可以跑的，还行。我max model len也是放满262k的还行：

Tony Yun

@九龙杨生 0.98应该没什么问题，几乎没有因为OOM崩过

Tony Yun

@Xiaote 如果是coding呢？130k就不够了吧

Tony Yun

@566656661 L40S 48GB

Tony Yun

我现在的vllm启动命令：

--served-model-name qwen3.6-27b-fp8
--kv-cache-dtype fp8
--dtype auto
--max-model-len 262144
--gpu-memory-utilization 0.98
--max-num-seqs 32
--max-num-batched-tokens 4096
--trust-remote-code
--enable-auto-tool-choice
--tool-call-parser qwen3_coder
--reasoning-parser qwen3
--enable-prefix-caching
--compilation-config '{"cudagraph_capture_sizes": [1, 2, 4, 8]}'
--speculative-config '{"method": "mtp", "num_speculative_tokens": 3}'
--port 8000 --host 0.0.0.0

但是经常超高cache，导致请求latency长达十几分钟。可是我不想限制max-model-len 这样最大上下文就没有260K了（gpt建议减半）。可130k上下文能干什么啊。

Tony Yun

@kop-wang 感觉cron触发很呆大部分时候都要人参与进去单纯的cron好像很难生成什么高质量的内容

Tony Yun

@566656661 那感觉还是deepseek v4 pro完全够用了也用不了几块钱

Tony Yun

这正常thinking就老长了叠加20tok/s 的吞吐慢如蜗牛。关了thinking直接降智，回答洗车店问题就整不对了。

用的L40S GPU，号称有FP8 tensor core，可没有任何感觉，跟用Q8感觉没有区别。

就这速度让agent干活我得等冒烟了。又没有特别好的工程方法让他们自己干活。让它干一天估计不如deepV4Pro干一小时。

Tony Yun

@tony-wang 因为租的云端GPU 不24小时跑回不了本

Tony Yun

@Shadow-Phoenix 用的就是uncensored 27B

Tony Yun

老是手动trigger 要么agent干着干着就停了人力监督很累

Tony Yun

GPU： L40S

确实可以的, prefill 2000 token/s, generation 20 tok/s.

但是跟deepseek V4 Pro 一比又不香了更快更好更便宜。不知道自己跑大模型有什么意义？

抡锤者

Tony Yun

帖子