Throughput on RTX 3090 (Qwen3.6-27B AWQ-Marlin BF16, BF16 KV, ctx=2048)

terry

这效果相当不错了，发个详细的教程，我也找时间抄作业，我给4090上下sg-lang，之前总是乱码。 2048上下文长度太短了，没什么意义，测试更长一点，最少64k。

williamlouis

很有价值。谢谢。claude 选的什么版本？现在 open AI 5.5 有人使用调试成功了。claude 这是也站起来了。

Larry Wang

@terry 4090 48g应该跑得下来，3090 24g sglang目前估计够呛，需要两张卡

Larry Wang

@williamlouis claude就用的opus 4.7，3090感觉目前跑不了qwen 3.6 27b sglang

terry

@Larry-Wang 不着急等Qwen3.7 27b发布之后，我相信Sg-Lang的支持会更好，到时候一起折腾，估计也就这两三周的事了。

williamlouis

@Larry-Wang 价格放哪了。opus 4.7 造价不菲啊。建议重点调试用。或试试国产。

johnnybegood

@Larry-Wang opus 4.7 比 deepseek 4.0 pro 到底好在哪呢？

terry

@johnnybegood LV并不比普通包体验好多少，好肯定好一点，但是没好那么多。不过有钱人都买LV。

? 离线

我也是用claude架的，這是我的配置

AresROC

vLLM 可以運行 32k 上下文，對於Agent用途來說還不錯，MTP速度為 50~60 tk/s @250w

--model ~/AiModel/int4-AutoRound
--gpu-memory-utilization 0.95
--max-model-len 32768
--enable-auto-tool-choice
--tool-call-parser qwen3_coder 0
--language-model-only
--host 0.0.0.0 --port 8000
--kv-cache-dtype fp8_e5m2
--max-num-seqs 1
--max-num-batched-tokens 4128
--trust-remote-code
--dtype bfloat16
--enable-prefix-caching
--enable-chunked-prefill
--no-scheduler-reserve-full-isl
--speculative-config '{"method":"mtp","num_speculative_tokens":3}'

抡锤者

Throughput on RTX 3090 (Qwen3.6-27B AWQ-Marlin BF16, BF16 KV, ctx=2048)