RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S

Reply to RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S on Sat, 30 May 2026 01:51:28 GMT

Tony Wang — Sat, 30 May 2026 01:51:28 GMT

已经非常好了

Reply to RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S on Fri, 29 May 2026 02:54:46 GMT

vosrock — Fri, 29 May 2026 02:54:46 GMT

可以试试这几个配置，这个上下文这个速度，我感觉已经没有升级的冲动了

Reply to RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S on Fri, 29 May 2026 01:31:58 GMT

Eliesid Sliva — Fri, 29 May 2026 01:31:58 GMT

感谢大佬，已经抄作业成功，同款20GB显存RTX3080 ，190K上下文，能跑50token/s左右，比LM Studio快太多了！

Reply to RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S on Wed, 27 May 2026 00:49:19 GMT

ldscool — Wed, 27 May 2026 00:49:19 GMT

@applejuice 就是命令行和hermes对话，让它建立项目做具体事情，做不好就骂，很奇怪，骂他比表扬他更有效，直到kv接近到99%,然后让它总结，写进度，退出，再次命令行进入，让它根据他自己写的项目进度继续做，每次重新打开第一次会话是比较久的，不过这个不影响了，毕竟190k上下文，已经可以撑很久，

那么问题来了，大家是怎么用的？为什么我的上下文基本是线性向上的，其实dashboard 的输入token曲线就能看出来

Reply to RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S on Wed, 27 May 2026 00:03:56 GMT

rock shi — Wed, 27 May 2026 00:03:56 GMT

@vosrock moe现在确实不行，就算DeepSeep v4这么强的模型也是moe，就能够得到qwen 27b的水平

Reply to RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S on Tue, 26 May 2026 17:33:59 GMT

Tony Wang — Tue, 26 May 2026 17:33:59 GMT

@vosrock

35b A3b 因为是moe模式， MTP和专家路由很难对齐，所以效果不好，等将来MTP的优化做得更好的时候，可能会有改善。

Reply to RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S on Tue, 26 May 2026 16:36:53 GMT

applejuice — Tue, 26 May 2026 16:36:53 GMT

@vosrock 说:

我目前使用HERMES的方法是对话式的，还没达到大佬们自动生产脚本的程度，目前的体验已经比在线的要好，要快，能力一点不弱，甚至更强，因为它读我给它的PDF，又快又准，理解得又好，甚至有的时候我对PDF那个环节拿不准，让他帮我找解决方法比我去看还快，之前一旦对话到后期，显存占用19.7M无论共享显存是0.2G还是多少，就有几率出现个位数的T/S，这个时候就比较煎熬了，因为这个时候项目代码有的还没更新完，停又不好停，但是现在这个设置，达到19.7G显存占用后，速度几乎还能保持35T/S左右，甚至现在共享显存已经到了1G了，还是很稳，对话过程的延时基本就是一两秒就开始给我回复了，到此刻，正式结束HERMES 跑QWEN3.6 27B的参数优化，谢谢大家看我唠叨

你是怎样测试的？

Reply to RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S on Tue, 26 May 2026 16:13:28 GMT

vosrock — Tue, 26 May 2026 16:13:28 GMT

我目前使用HERMES的方法是对话式的，还没达到大佬们自动生产脚本的程度，目前的体验已经比在线的要好，要快，能力一点不弱，甚至更强，因为它读我给它的PDF，又快又准，理解得又好，甚至有的时候我对PDF那个环节拿不准，让他帮我找解决方法比我去看还快，之前一旦对话到后期，显存占用19.7M无论共享显存是0.2G还是多少，就有几率出现个位数的T/S，这个时候就比较煎熬了，因为这个时候项目代码有的还没更新完，停又不好停，但是现在这个设置，达到19.7G显存占用后，速度几乎还能保持35T/S左右，甚至现在共享显存已经到了1G了，还是很稳，对话过程的延时基本就是一两秒就开始给我回复了，到此刻，正式结束HERMES 跑QWEN3.6 27B的参数优化，谢谢大家看我唠叨

Reply to RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S on Tue, 26 May 2026 15:57:00 GMT

vosrock — Tue, 26 May 2026 15:57:00 GMT

最新优化，我觉得又白嫖了KV了，多模态MTP，长时间N多轮对话直到KV到99%都稳定运行，KV已经可以达到190K.。。。我继续让他做中型的代码任务，
35B我觉得可以弃用了，MTP基本无效，不时出点“什么缩进错误”，或者“干脆我重写好了”，
隔壁帖子提到的forcing full prompt re-processing due to lack of cache dataforcing full prompt re-processing due to lack of cache data现象，终于是出现了，不过也就一扫而过，没有感到任何异常

改了高亮的地方

Reply to RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S on Tue, 26 May 2026 14:56:49 GMT

rock shi — Tue, 26 May 2026 14:56:49 GMT

@vosrock 支持的啊，下午还让AI找了个多模态的用上了

Reply to RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S on Tue, 26 May 2026 12:37:17 GMT

vosrock — Tue, 26 May 2026 12:37:17 GMT

@rock-shi 跑了一下午的代码项目，160K到顶了，170K有机会炸显存，疑问来了，不是说MTP不支持多模态吗？我怎么跑起来了

Reply to RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S on Tue, 26 May 2026 12:27:01 GMT

vosrock — Tue, 26 May 2026 12:27:01 GMT

@kop-wang 这是跑到105K KV时候的PREFILLL速度，对话开始的时候是1100多

Reply to RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S on Tue, 26 May 2026 07:57:18 GMT

kop wang — Tue, 26 May 2026 07:57:18 GMT

感谢楼主分享。
prefill性能不到500，从性价比上来讲可以接受，但是容易多轮对话之后每次LLM调用都要罚站10~20秒。

但反过来想，如果使用localLLM只是用于背景进程任务，对实时性要求不高的话，也是可以接受的。

还有就是MTP对于prefill有一定的负面影响，也需要去衡量。

Reply to RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S on Tue, 26 May 2026 07:37:01 GMT

rock shi — Tue, 26 May 2026 07:37:01 GMT

@vosrock 对啊！最起码体感很舒服了，跟云端差不太多了。再就等DFlash了，让AI预估了一下3080估计能到60t/s了

Reply to RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S on Tue, 26 May 2026 06:08:47 GMT

vosrock — Tue, 26 May 2026 06:08:47 GMT

隔壁帖子SKY大佬提供的模型Qwen3.6-27B-uncensored-abliterated-MTP-i1-IQ4_XS-FFN-IQ3，27B多模态MTP的速度，KV现在是150K上限，跑到了100K左右，显存峰值才19。3G，也就是说还可以继续加，不过这个速度这个精度还多模态，已经无遗憾了

Reply to RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S on Tue, 26 May 2026 03:23:44 GMT

rock shi — Tue, 26 May 2026 03:23:44 GMT

@applejuice 48g我的天，后面还可以关注DFlash，你这跑27b速度不得到80t/s

Reply to RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S on Tue, 26 May 2026 00:17:46 GMT

ldscool — Tue, 26 May 2026 00:17:46 GMT

@im17me 有nvlink 的3090那是直接起飞了，可以预期速度x1.8，显存48g爽yy了

Reply to RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S on Mon, 25 May 2026 15:11:16 GMT

applejuice — Mon, 25 May 2026 15:11:16 GMT

@im17me 还没到啊. 我国外

Reply to RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S on Mon, 25 May 2026 15:10:26 GMT

im17me — Mon, 25 May 2026 15:10:26 GMT

@applejuice 你的3090加nvlink 有效果吗？能不能说一下提升情况

Reply to RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S on Mon, 25 May 2026 11:07:06 GMT

vosrock — Mon, 25 May 2026 11:07:06 GMT

@applejuice 原来您是双3090啊，那不一样，完全是两个世界了，我估计跑COMFYuI都能有不错的体验啊，单3080其实LTX2.3也能跑一下，体验都还可以的，这张卡其实我是去年拿来跑视频的敢信

Reply to RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S on Mon, 25 May 2026 08:57:05 GMT

rock shi — Mon, 25 May 2026 08:57:05 GMT

@applejuice 双卡3090+nvlink绝对牛逼。期待一波反馈

Reply to RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S on Mon, 25 May 2026 07:59:56 GMT

applejuice — Mon, 25 May 2026 07:59:56 GMT

@vosrock

钱已经花了等我机器到也测一测

Reply to RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S on Mon, 25 May 2026 07:19:50 GMT

vosrock — Mon, 25 May 2026 07:19:50 GMT

用27B跑项目的前期，工作习惯，框架大体搭好，然后用35B，开满上下文，不用MTP，速度就是这个样子，截图的这个状态实际上下文已经跑到了150K了，这只是单卡，还是不要搞双卡了，哥们

Reply to RTX3080 20g,qwen3.6 27B 45-50T/S 35B多模态256K 110T/S on Mon, 25 May 2026 06:56:06 GMT

rock shi — Mon, 25 May 2026 06:56:06 GMT

@applejuice 也不能这么说，肯定是有舍有得。像我这两个3080，当时买的时候感觉挺落后的，实际上玩起来的时候说不定有很多其他卡不适配的应用场景，整体速度感觉也还不错。