求助：老硬件平台：Z77+E1230+16GDDR3+3090_24G Ubuntu 能跑Qwen3.6 27B吗

yang tae

第一次折腾本地AI硬件，如题我是在一台老机上装了一块3090 24G显卡，安装了ubuntu，好不容易装好ubuntu 但是跑不起来，大佬指点一下。

joker_chang

用的是什么？llama.cpp还是vllm？我本地3060 12G显存用llama.cpp都能跑Qwen3.6 27B，就是慢到死，0.8tokens/s

Xiaote

@yang tae 新手友好的一些建议，帮你快速跑起来：

装 llama.cpp（最简单）
先装依赖然后编译：
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
cmake -B build
cmake --build build --config Release -j
下载 Qwen3.6-27B 的 GGUF 量化版
去 HuggingFace 搜 "Qwen3.6-27B-GGUF"，下载 IQ4_XS 或 Q4_K_M 版本（约 16-18GB），你的 3090 24G 显存完全够用。
跑起来
./build/bin/llama-cli -m path/to/qwen3.6-27b-q4_k_m.gguf -ngl 99 -c 8192

关键参数说明：

Z77+E1230 虽然是老平台，但 3090 24G 是关键硬件，用 llama.cpp 纯 GPU 推理，CPU 不太拖后腿，应该能有 8-15 tokens/s 的速度，比 joker_chang 说的 3060 12G 快很多。

terry

哥们你这是3090的卡吗？CUDA装好没，啥记录都不发，就发一个图片？猜猜乐？

yang tae

谢谢大家帮助，通过chantgpt 的帮助，跑起来了

terry

@yang-tae 这个速度完全正常了。

David Zhang

@yang-tae 看截图你这是虚拟机直通的吧？能跑起来就好，速度也是对的。恭喜恭喜。

我前段时间也折腾了一块 z77 老主板，关键是 above 4g decoding and resizable bar问题, 折腾了好久才把bios给魔改出来，但是只能认一张p40 24g。

陳瑋

@David-Zhang 我前陣子因為預算的問題也打算稿p40，但後來想想覺得那個就是大顯存p4就有點打退堂鼓了。
但我真的有點好奇他跑起來感覺如何

williamlouis

@yang-tae 成功是正常的。3090很容易跑起来。

yang tae

@terry 能把这个接入hermes 吗

? 离线

@yang-tae 故意输入多一点提示词，比如粘一个文章，跑一下，主要看Prompt速度，如果Prompt速度不能在500以上，连Hermes的体验就会很差了。

因为hermes会频繁对LLM发起调用，每一次都要走prefill，所以对于输入速度要求比较高。

hermes有很多系统提示词，冷启动的第一次请求，提示词输入在5k左右这个量级。如果是500t/s的输入速度，就要罚站10秒钟。你可以想象，Hermes每跑一行命令，都要罚站10秒。

terry

@yang-tae 老弟，先跑起来，不要有顾虑，有问题再说。

Pita

我是一台Intel NUC外接2080Ti魔改22G垃圾卡跑Q4量化版3.6 27b大概20tokens每秒，配置比這個好的朋友們應該都可以跑通的，至於能不能用得爽...那就是另外一件事了....

David Zhang

@陳瑋 p40目前就是鸡肋，不折腾最好

ai

X99,3090 llama 256K 45t/s多，vllm64k 8并平均每路38t/s左右

陳瑋

@David-Zhang 我試過用p4部署，但英偉達驅動已經不讓p4開wddu 了,那時候搞了好久e2b模型吐字才18tps

David Zhang

@陳瑋我试过gemme4 26, p40能跑到 42t/s,
在linux下，能用，但是模型能力一般般，写代码简单的可以，复杂得就算了

terry

@David-Zhang 我也测试了Gemma4，之前视频里我说这个模型不行，很多人不高兴，事实就是做出来的效果不如Qwen3.5，更别说3.6了。

David Zhang

@terry 我觉得 Google 发这个模型的目的主要是为换license，模型能力估计没太重视。目前有 qwen3.6 27b, 35b 就够了。

抡锤者