求助：老硬件平台：Z77+E1230+16GDDR3+3090_24G Ubuntu 能跑Qwen3.6 27B吗

陳瑋

@David-Zhang 我前陣子因為預算的問題也打算稿p40，但後來想想覺得那個就是大顯存p4就有點打退堂鼓了。
但我真的有點好奇他跑起來感覺如何

williamlouis

@yang-tae 成功是正常的。3090很容易跑起来。

yang tae

@terry 能把这个接入hermes 吗

? 离线

@yang-tae 故意输入多一点提示词，比如粘一个文章，跑一下，主要看Prompt速度，如果Prompt速度不能在500以上，连Hermes的体验就会很差了。

因为hermes会频繁对LLM发起调用，每一次都要走prefill，所以对于输入速度要求比较高。

hermes有很多系统提示词，冷启动的第一次请求，提示词输入在5k左右这个量级。如果是500t/s的输入速度，就要罚站10秒钟。你可以想象，Hermes每跑一行命令，都要罚站10秒。

terry

@yang-tae 老弟，先跑起来，不要有顾虑，有问题再说。

Pita

我是一台Intel NUC外接2080Ti魔改22G垃圾卡跑Q4量化版3.6 27b大概20tokens每秒，配置比這個好的朋友們應該都可以跑通的，至於能不能用得爽...那就是另外一件事了....

David Zhang

@陳瑋 p40目前就是鸡肋，不折腾最好

ai

X99,3090 llama 256K 45t/s多，vllm64k 8并平均每路38t/s左右

陳瑋

@David-Zhang 我試過用p4部署，但英偉達驅動已經不讓p4開wddu 了,那時候搞了好久e2b模型吐字才18tps

David Zhang

@陳瑋我试过gemme4 26, p40能跑到 42t/s,
在linux下，能用，但是模型能力一般般，写代码简单的可以，复杂得就算了

terry

@David-Zhang 我也测试了Gemma4，之前视频里我说这个模型不行，很多人不高兴，事实就是做出来的效果不如Qwen3.5，更别说3.6了。

David Zhang

@terry 我觉得 Google 发这个模型的目的主要是为换license，模型能力估计没太重视。目前有 qwen3.6 27b, 35b 就够了。

抡锤者