3090ti部署qwen3.6-27B-MTP-q4_K-M的疑惑

暧昧光影

@Xiaote turbo4上下文能拉到200k，256k会oom

暧昧光影

@applejuice 我是双卡配置，只用单独3090ti跑llama.cpp，turbo4之后上下文最多到200k，256不行。vllm问了ai肯定不行，128k都够呛。
如果不加多模态投影，省点显存的话，回头试试是否可以256k拉满

applejuice

@暧昧光影说:

@applejuice 我是双卡配置，只用单独3090ti跑llama.cpp，turbo4之后上下文最多到200k，256不行。vllm问了ai肯定不行，128k都够呛。
如果不加多模态投影，省点显存的话，回头试试是否可以256k拉满

单卡我就没试过了
单卡我才开65k 上下文 ComfyUI 上线的时候过渡用罢了
其他时候都是2张卡跑LLM

asd2667

换成 IQ4-XS就能开到256K上下文了，智商影响不大，个别版本跟K M 参数非常接近

comeN

一般200K就够用，超过200K的大任务你最好交给DeepSeek-v4-flash的API解决问题。

暧昧光影

@comeN 现在就是保持200K上下文
comfyui还要花时间折腾，3090ti跑模型，3060跑comfyui，跑通之后再考虑换显卡

stxpnet

自己起的命令行不知道为什么不行，可以克隆noonghunna/club-3090 这个大神的REPO，它会在系统盘拉取容器，轻松突破200K，后期你跑顺了也可以自己去找找yml文件，修改其中的配置。但是智商会有一定损伤的。目前我日常就使用这个llamacpp/mtpiq4nl (IQ4_NL MTP)
。

Don Zhu 0

@stxpnet 说:

noonghunna/club-3090

看起来不错，我要去试一下

stxpnet

还有个问题,你要200K, 最好不要加载投影文件,加了投影文件似乎会拖慢速度,并且智商似乎也有影响.
删除那行 MMR="/home/stephen/models/qwen3.6-27b-mtp/mmproj-BF16.gguf" ,模型只会识图能力(另外似乎3090系不支持BF16格式? 我也是问过AI,所以我之前测试都是下载的F16格式,有些大神制作的模型没有F16投影文件) .
我主要用来编程,改BUG,所以直接不加载投影. 我有另一台二奶机,16G老显卡,如果有识图需求是在上面加载的9B模型来给HERMES识图用.

566656661

@stxpnet

3090理論上支持BF16, 不過好像強行用因為表現會比FP16跟TF32更差, 所以沒有人去優化

Github

抡锤者

3090ti部署qwen3.6-27B-MTP-q4_K-M的疑惑

Flags (in docker-compose.yml)

Flags (in docker-compose.yml)

Environment