@张老师
你可以用自己的模型阿,没有必要一定用我的,但是ik_llama.cpp就必须用我这个
y2k
-
大模型16G卡的春天 -
大模型16G卡的春天测试了,50K上下文没任何问题!

-
虽迟但到,交作业了群里大佬都是人均有公网ipv4的吗?我只有公网ipv6,但是很多时候客户端没有v6,之后我就用一直用白嫖的cf隧道,虽然晚高峰速度一般,不过还算稳定
-
大模型16G卡的春天@terry 要到现场才可以测试了,因为不敢把本地的向日葵关了,关了就远程不到算力机了,周一到本地测试下。跑64K感觉可以。我感觉多轮下来的上下文计算可能不对。
-
大模型16G卡的春天@terry 有没有测试上下文极限的方法?提供一下,我想测试一下
-
大模型16G卡的春天刚刚测试50K上下文连续1万字测试,到3万就oom了,不知道啥情况
-
大模型16G卡的春天写这个帖子是群主提议,本来我是向论坛朋友hotpigwk道歉的,之前他发的关于v100 16g显卡跑大模型的提问,我在帖子下喷这个卡垃圾,不行。今天早上看油管,无意看到有群友评论他自己的v100 16g显卡,在开启turboQuant后,上下文可以跑到100k。马上引起我的兴趣,因为手上有个5600ti 16g显卡,月初按着老特指引去搭建了qwen3.6-27b q4模型,驱动hermes,发现智力在线!真心可以干活,可是无论怎么搞,只能稳定跑20k上下文。顿时觉得16g显卡就像鸡肋,食之无味,弃之可惜。能用,但是又不省心。hermes自带的上下文都15K左右了,做稍微复杂的任务,马上oom。啰嗦了半天,开始进入主题。16g显卡其实也可以跑64K甚至更高的上下文。
原文内容:我用v100 16g跑27b模型,开启turboQuant后,上下文翻倍,可以到100k。模型地址: https://huggingface.co/sokann/Qwen3.6-27B-GGUF-4.262bpw 不过它要用ik_llama.cpp加载,要自己编译, 好处是集成了turboQuant, KV可以翻倍。上下文可以开到100K,大概在28tokens/s。关键参数 -c 102400 -np 1 -fa on -ngl 99 -ctk q4_0 -khad -ctv q4_0 -vhad -wgt 1
于是今天中午我特意用16g的5600ti测试一下,要是能跑到100k,那用hermes是相当不错了。
1.文中提及的ik_llama.cpp,我这里用的是:https://github.com/Thireus/ik_llama.cpp/releases/tag/main-b4744-8d7891f
上面又A卡的版本,也又N卡的版本,N卡是win和linux都有,A卡是只有linux。使用方法是直接下载,解压,然后写个脚本就可以运行起来。可以参考我这个
#!/bin/bash==================== 启动 llama-server ====================
echo "========================================"
echo " 正在启动 Qwen3.6-27B IQ4_XS..."
echo "========================================"
echo ""export LD_LIBRARY_PATH=/home/cyg/miniconda3/envs/vllm/lib/python3.10/site-packages/nvidia/cu13/lib:$LD_LIBRARY_PATH
/home/cyg/ik_llama.cpp/build/bin/llama-server
-m /home/cyg/models/Qwen3.6-27B-i1-IQ4_XS.gguf
-c 51200
-np 1
-fa on
-ngl 99
-ctk q4_0
-khad
-ctv q4_0
-vhad
--host 0.0.0.0
--port 8000
--cont-batching
--jinja
--mlock
--threads 10
--threads-batch 12==================== 退出处理 ====================
echo ""
echo "========================================"
echo " llama-server 已停止运行"
echo "========================================"
1.上面是双q4运行50K上下文,其实可以跑到65535就是64K上下文的,我看着远程的向日葵,占用了400M左右的显存。
2.原文提供的https://huggingface.co/sokann/Qwen3.6-27B-GGUF-4.262bpw ,我并没有下载,我还是用之前的Qwen3.6-27B-i1-IQ4_XS.gguf,之所以跑相同的模型,目的是想知道带有turboQuant的ik_llama.cpp是不是真的比官方的llama.cpp上下文翻倍。
3.测试结果:确实是翻倍了,原来我只能稳定跑20k上下文,在极端双q4下,我成功跑到64K上下文。此时显存占用99%了。为了稳妥起见,我还是选择了50k上下文。速度上没有明显变化,都是25-27t/s,大家可以自行测试用原文网友的模型看看,可能会真能跑到100k,我这个50k已经满足。

下面是不同压缩的测试结果。




以上图片均是实际测试,并非云的。老特要想什么测试图片,可以提出来,我有空去测。 -
作为一个ai新手,想尝鲜尝试和学习,打算入一张V100 16G的,但是为啥论坛里完全不聊这张卡?真的是没有生产力?还是性价比太低?


3个速度都差不多,25t/S,建议用 k q8 ,v q4,这样压缩质量和空间都比较好。集成了turboQuant的ik_llama.cpp确实可以大幅提升上下文压缩空间。N卡,A卡都有效果。以后16g卡跑27b模型会越来越好用
-
作为一个ai新手,想尝鲜尝试和学习,打算入一张V100 16G的,但是为啥论坛里完全不聊这张卡?真的是没有生产力?还是性价比太低?

-
作为一个ai新手,想尝鲜尝试和学习,打算入一张V100 16G的,但是为啥论坛里完全不聊这张卡?真的是没有生产力?还是性价比太低?@terry 我手上没这个卡,下午抽了点时间。用5060ti试了一下,同样是16g显存,应该有参考意义,之前用官网的llama.cpp跑qwen3.6-27b q4,最多开20k就不行了,下午试了一下这个ik_llama.cpp跑了一下。100k是跑不了,不过试了开50k上下文驱动hermes没有问题!速度25t/s。因为开着向日葵远程测试的,把向日葵关了估计能上到60k,用着算是不错!我发一下参数-c 51200
-np 1
-fa on
-ngl 99
-ctk q4_0
-khad
-ctv q4_0
-vhad
--host 0.0.0.0
--port 8000
--cont-batching
--jinja
--mlock
--threads 10
--threads-batch 12
附下载地址:https://github.com/Thireus/ik_llama.cpp/releases/tag/main-b4744-8d7891f
且行且珍惜 -
作为一个ai新手,想尝鲜尝试和学习,打算入一张V100 16G的,但是为啥论坛里完全不聊这张卡?真的是没有生产力?还是性价比太低?贴主抱歉了,泡了一下论坛,发现v100 跑大模型还真可能,附上27b模型链接,https://huggingface.co/sokann/Qwen3.6-27B-GGUF-4.262bpw, 不过它要用ik_llama.cpp加载,要自己编译, 好处是集成了turboQuant, KV可以翻倍。 论坛有人在V100 16G 上测试, 可以跑起来,上下文可以开到100K,大概在28tokens/s。关键参数 -c 102400 -np 1 -fa on -ngl 99 -ctk q4_0 -khad -ctv q4_0 -vhad -wgt 1
-
7900XTX + llama.cpp Qwen3.6 27B TurboQuant + MTP 测试结果分享感谢老哥,感谢分享
-
装机翻车了,求救@joker_chang ,,不知道呢,图片配置也发了,照着买就是
-
装机翻车了,求救@joker_chang 刚刚问了,支持的!

-
装机翻车了,求救@joker_chang 应该可以吧,我也只有台式机内存,不行的话我就退货了
-
别买显存低于20G的显卡了,最起码起步就是32G280g带宽拖累了,小黄鱼出掉回点血
-
抡锤者社区正式上线报道,以后我也是第一批老人
-
🚨 别再用 WSL2跑 Hermes 了!3 分钟,零配置 — 我把 Hermes Agent 搬到了 Windows 原生环境收藏了,感谢分享
-
请教各位大神,想要起一个英语频道,文案、语音生成方面应该怎么解决?你居然想和老特抢饭碗?换个频道吧,