抡锤者

y2k

写这个帖子是群主提议，本来我是向论坛朋友hotpigwk道歉的，之前他发的关于v100 16g显卡跑大模型的提问，我在帖子下喷这个卡垃圾，不行。今天早上看油管，无意看到有群友评论他自己的v100 16g显卡，在开启turboQuant后，上下文可以跑到100k。马上引起我的兴趣，因为手上有个5600ti 16g显卡，月初按着老特指引去搭建了qwen3.6-27b q4模型，驱动hermes，发现智力在线！真心可以干活，可是无论怎么搞，只能稳定跑20k上下文。顿时觉得16g显卡就像鸡肋，食之无味，弃之可惜。能用，但是又不省心。hermes自带的上下文都15K左右了，做稍微复杂的任务，马上oom。啰嗦了半天，开始进入主题。16g显卡其实也可以跑64K甚至更高的上下文。
原文内容:我用v100 16g跑27b模型，开启turboQuant后，上下文翻倍，可以到100k。模型地址： https://huggingface.co/sokann/Qwen3.6-27B-GGUF-4.262bpw 不过它要用ik_llama.cpp加载，要自己编译，好处是集成了turboQuant, KV可以翻倍。上下文可以开到100K，大概在28tokens/s。关键参数 -c 102400 -np 1 -fa on -ngl 99 -ctk q4_0 -khad -ctv q4_0 -vhad -wgt 1
于是今天中午我特意用16g的5600ti测试一下，要是能跑到100k，那用hermes是相当不错了。
1.文中提及的ik_llama.cpp，我这里用的是:https://github.com/Thireus/ik_llama.cpp/releases/tag/main-b4744-8d7891f
上面又A卡的版本，也又N卡的版本，N卡是win和linux都有，A卡是只有linux。使用方法是直接下载，解压，然后写个脚本就可以运行起来。可以参考我这个
#!/bin/bash

==================== 启动 llama-server ====================

echo "========================================"
echo " 正在启动 Qwen3.6-27B IQ4_XS..."
echo "========================================"
echo ""

export LD_LIBRARY_PATH=/home/cyg/miniconda3/envs/vllm/lib/python3.10/site-packages/nvidia/cu13/lib:$LD_LIBRARY_PATH
/home/cyg/ik_llama.cpp/build/bin/llama-server
-m /home/cyg/models/Qwen3.6-27B-i1-IQ4_XS.gguf
-c 51200
-np 1
-fa on
-ngl 99
-ctk q4_0
-khad
-ctv q4_0
-vhad
--host 0.0.0.0
--port 8000
--cont-batching
--jinja
--mlock
--threads 10
--threads-batch 12

==================== 退出处理 ====================

echo ""
echo "========================================"
echo " llama-server 已停止运行"
echo "========================================"
1.上面是双q4运行50K上下文，其实可以跑到65535就是64K上下文的，我看着远程的向日葵，占用了400M左右的显存。
2.原文提供的https://huggingface.co/sokann/Qwen3.6-27B-GGUF-4.262bpw ，我并没有下载，我还是用之前的Qwen3.6-27B-i1-IQ4_XS.gguf，之所以跑相同的模型，目的是想知道带有turboQuant的ik_llama.cpp是不是真的比官方的llama.cpp上下文翻倍。
3.测试结果：确实是翻倍了，原来我只能稳定跑20k上下文，在极端双q4下，我成功跑到64K上下文。此时显存占用99%了。为了稳妥起见，我还是选择了50k上下文。速度上没有明显变化，都是25-27t/s，大家可以自行测试用原文网友的模型看看，可能会真能跑到100k，我这个50k已经满足。

下面是不同压缩的测试结果。

以上图片均是实际测试，并非云的。老特要想什么测试图片，可以提出来，我有空去测。

y2k

@terry 视频多次提及，反复强调，我都以为你和老板有py交易，而且老板也没否定，爽快升级，可能你不认老板，但老板认识你🤭

y2k

土豪啊。我也装机了，不过主机是抄作业那个华南x99+2682v4，板u加起来388元，跟老板说是论坛的老特介绍的，能不能给我升级一下6管散热器，然后老板就爽快的给我升级了配件

y2k

2002读大一的时候，就行玩qq聊天，那时候啥都不会，没钱买资料，又想学，于是每周去学校图书馆占位看电脑报，一周出2期，学校每日期都会买下供学生看，我就是看了一整年电脑报，从一个菜鸟变成老鸟，之后去图吧各种捡垃圾，玩amd超频，结果是索然无味的，但是过程乐趣无穷

y2k

@terry 我手上没这个卡，下午抽了点时间。用5060ti试了一下，同样是16g显存，应该有参考意义，之前用官网的llama.cpp跑qwen3.6-27b q4，最多开20k就不行了，下午试了一下这个ik_llama.cpp跑了一下。100k是跑不了，不过试了开50k上下文驱动hermes没有问题！速度25t/s。因为开着向日葵远程测试的，把向日葵关了估计能上到60k，用着算是不错！我发一下参数-c 51200
-np 1
-fa on
-ngl 99
-ctk q4_0
-khad
-ctv q4_0
-vhad
--host 0.0.0.0
--port 8000
--cont-batching
--jinja
--mlock
--threads 10
--threads-batch 12
附下载地址:https://github.com/Thireus/ik_llama.cpp/releases/tag/main-b4744-8d7891f
且行且珍惜

y2k

群里大佬都是人均有公网ipv4的吗？我只有公网ipv6，但是很多时候客户端没有v6，之后我就用一直用白嫖的cf隧道，虽然晚高峰速度一般，不过还算稳定

y2k

@davidwei0826 坐标广东珠海，移动把udp限制的死死的，wireguard一类通过upd组网基本没戏，我目前是用v6+ws伪装的vless组网，或者直接用cf隧道+ws伪装的vless组网，如果自用的话，其实ddnsto速度也不错，免费的4兆带宽，速度也稳定

y2k

刚刚测试50K上下文连续1万字测试，到3万就oom了，不知道啥情况

y2k

3个速度都差不多，25t/S，建议用 k q8 ，v q4，这样压缩质量和空间都比较好。集成了turboQuant的ik_llama.cpp确实可以大幅提升上下文压缩空间。N卡，A卡都有效果。以后16g卡跑27b模型会越来越好用

y2k

报道，以后我也是第一批老人

抡锤者

y2k

帖子

==================== 启动 llama-server ====================

==================== 退出处理 ====================