写这个帖子是群主提议,本来我是向论坛朋友hotpigwk道歉的,之前他发的关于v100 16g显卡跑大模型的提问,我在帖子下喷这个卡垃圾,不行。今天早上看油管,无意看到有群友评论他自己的v100 16g显卡,在开启turboQuant后,上下文可以跑到100k。马上引起我的兴趣,因为手上有个5600ti 16g显卡,月初按着老特指引去搭建了qwen3.6-27b q4模型,驱动hermes,发现智力在线!真心可以干活,可是无论怎么搞,只能稳定跑20k上下文。顿时觉得16g显卡就像鸡肋,食之无味,弃之可惜。能用,但是又不省心。hermes自带的上下文都15K左右了,做稍微复杂的任务,马上oom。啰嗦了半天,开始进入主题。16g显卡其实也可以跑64K甚至更高的上下文。
原文内容:我用v100 16g跑27b模型,开启turboQuant后,上下文翻倍,可以到100k。模型地址: https://huggingface.co/sokann/Qwen3.6-27B-GGUF-4.262bpw 不过它要用ik_llama.cpp加载,要自己编译, 好处是集成了turboQuant, KV可以翻倍。上下文可以开到100K,大概在28tokens/s。关键参数 -c 102400 -np 1 -fa on -ngl 99 -ctk q4_0 -khad -ctv q4_0 -vhad -wgt 1
于是今天中午我特意用16g的5600ti测试一下,要是能跑到100k,那用hermes是相当不错了。
1.文中提及的ik_llama.cpp,我这里用的是:https://github.com/Thireus/ik_llama.cpp/releases/tag/main-b4744-8d7891f
上面又A卡的版本,也又N卡的版本,N卡是win和linux都有,A卡是只有linux。使用方法是直接下载,解压,然后写个脚本就可以运行起来。可以参考我这个
#!/bin/bash
==================== 启动 llama-server ====================
echo "========================================"
echo " 正在启动 Qwen3.6-27B IQ4_XS..."
echo "========================================"
echo ""
export LD_LIBRARY_PATH=/home/cyg/miniconda3/envs/vllm/lib/python3.10/site-packages/nvidia/cu13/lib:$LD_LIBRARY_PATH
/home/cyg/ik_llama.cpp/build/bin/llama-server
-m /home/cyg/models/Qwen3.6-27B-i1-IQ4_XS.gguf
-c 51200
-np 1
-fa on
-ngl 99
-ctk q4_0
-khad
-ctv q4_0
-vhad
--host 0.0.0.0
--port 8000
--cont-batching
--jinja
--mlock
--threads 10
--threads-batch 12
==================== 退出处理 ====================
echo ""
echo "========================================"
echo " llama-server 已停止运行"
echo "========================================"
1.上面是双q4运行50K上下文,其实可以跑到65535就是64K上下文的,我看着远程的向日葵,占用了400M左右的显存。
2.原文提供的https://huggingface.co/sokann/Qwen3.6-27B-GGUF-4.262bpw ,我并没有下载,我还是用之前的Qwen3.6-27B-i1-IQ4_XS.gguf,之所以跑相同的模型,目的是想知道带有turboQuant的ik_llama.cpp是不是真的比官方的llama.cpp上下文翻倍。
3.测试结果:确实是翻倍了,原来我只能稳定跑20k上下文,在极端双q4下,我成功跑到64K上下文。此时显存占用99%了。为了稳妥起见,我还是选择了50k上下文。速度上没有明显变化,都是25-27t/s,大家可以自行测试用原文网友的模型看看,可能会真能跑到100k,我这个50k已经满足。

下面是不同压缩的测试结果。




以上图片均是实际测试,并非云的。老特要想什么测试图片,可以提出来,我有空去测。



