不建议去买任何没有保险的卡,未来 4 年的保障,怎么也值 1000 元。当然,如果是学习就可以买,入门后这个卡一定是跑小任务玩。我就是京东 6399 买的 4 年保的。说实在也是赌,毕竟不是官方旗舰店。
而且 24g就是拿来练手的,理论上 5500 可以收到 1 手带购买凭证,纯粹玩游戏,没有挖过矿的 卡,而且是风扇卡才能值得入手,这样,直接解决了家用噪音问题。
其实,新手 24g 反而不是个好开始,真正值得练手卡是 32g 4080s。
尽量争取上好的啊。我这个半个月 3090 24g 真的好累。
没有任何必要。本来就不懂,让 hermes 不停烧 token 调试服务器才勉强跑起来。
wwcd
-
大佬们你 这3090 这成色能入吗? 5500 -
严格按推荐购买了入门配置。软件折腾的道路求指引。我同时在 Docker 里布置了两个模型,一个是通过 llama 跑的 3.5。一个是vllm跑老板哥们兄弟强烈推荐的3.6 27b 4b量化稠密。都具有生产力。
-
严格按推荐购买了入门配置。软件折腾的道路求指引。
完全是 Hermes 自己去下载了一个 Docker,启动了一个千问 3.5 模型。这是启动参数。
是的,刚才查到的就是 8010 (llama) 的日志。根据最新的数据,它的运行速度非常稳,且符合你的直观感受:
- 生成速度(出字):约 108 Token/秒
(换算成汉字大约是 每秒 70-80 字。对于 35B 这样的大模型,在单张 RTX 3090 上跑这个速度已经属于顶格表现了,非常强劲。) - 读取速度(看你的字):约 1500 Token/秒
(处理你的输入非常快,几乎是无感知的。)
为什么“刚才跑了好久”?
日志里显示,上一次处理了一次 8192 Token(大约 6000 多字)的长输出,耗时 79 秒。
这就是你觉得“跑了好久”的原因——它正在认真生成长篇内容。
虽然时间长,但速度一直稳定在 100 TPS 以上,并没有卡顿。结论:
8010 目前处于最佳状态,既聪明(35B 模型)又够用(100 TPS),完全不需要切到 8020 去。就让它这么跑着吧。真的和老板说的几乎接近,我从 Deepseek 切换回 本地千问模型除了感觉,盯着看是慢一点。但是用来跑 Hemes 是没有太多感知的,因为它后台就完成任务。慢点,快点。并不重要,完成的效果一样就可以了
- 生成速度(出字):约 108 Token/秒
-
严格按推荐购买了入门配置。软件折腾的道路求指引。如果想买相同配置。所有的问题我都可以回答。
折腾机器的时候,有几个感触。DDR4 价格还是太贵了,建议还是买 DDR3 的主板。我这里刚好有人有这个 DDR4 的主板,本地收的。
能耗,家用智能插座显示,待机的时候电流是0.25 ,满载1.94 。大概就是 60~70 瓦的待机,满载功率就是 440 瓦,很恒定。
涡轮风扇的噪音那是有的啊,我用 iPhone 手机的去测试,最靠近风扇的时候有 90 分贝,离远点也有 60 分贝,离开两米远。才能够勉强地接受它,坐在旁边是受不了的,一定要把它放在一个密封的柜子里面,或者是放在远一点的地方。

-
严格按推荐购买了入门配置。软件折腾的道路求指引。我把论锤者所有的视频都仔仔细细看了个遍,然后严格按照配置推荐,买的配置如下。
x99华南 2680 cpu 套装188 小主板
32gb ddr4内存 587
3090 京东买的6399其他配件都是利旧
振华850电源 原价320全日系,注意课代表点题,老板说,电源一定要买好的,一定要用 10 年以上。
机箱先马静音,实测对涡轮无静音效果。所以老板说,一定要买个大机箱,未来会更好。
ssd 爱国者2tb ssd pt7000,放在这个机器被降速为4500m了。本来不想装一台新机器的,哪想看中了一句话,就是不就是花钱?买了一个显卡坞吗?
立马决定买了一个新机。系统是 Ubuntu 22,就开始了我的折腾,全部都是用 Hermes。全程没有自己打过一句指令,所以我现在折腾的效果。我自己都不知道。
总共从认识这个论坛到现在折腾,我的成就感爆棚,因为我什么都不知道。我求助的是论坛里高手,真正来指引一下我们这样的小白怎么去真正的去了学习,入门。而不是完全靠着 Hermes。
-
补充个短板吧。免费本地音频项目。本地AI自主创作歌曲。效果非常nice。测试结果:完全媲美Suno(Suno收费10-50U)你这是开了我的脑洞。音乐我玩的溜啊。至少可以拿来做个自动伴奏不错的。另外随便混成一个音乐人,也行啊。
-
定了一台HP OMEN 5090的机器。5090 好机器。我们都是diy。严格按照lcz老师的。x99 洋垃圾 2666 32g ddr3内存,1000w电源,23090配置。
现在只买了1个3090,看后来到底是2还是 另配一个4080s
只能玩这么多了。 -
问完去睡觉,下半个月死磕QWEN 3.6 35B A3B.运行
python -m sglang.launch_server
--model-path ./Qwen3.6-35B-A3B-APEX-I-Quality.gguf
--model-format gguf
--context-length 6144
--kv-cache-dtype int8
--mem-fraction-static 0.92
--chunked-prefill-enabled
--enable-radix-cache
--chat-template qwen3
--extra-body '{"enable_thinking": false}'
--port 8000
每个参数的作用和为什么这么设
表格
参数 作用 为什么设这个值
--model-path ./xxx.gguf 模型文件路径 替换成你下载的 22.08GB 文件的实际路径
--model-format gguf 指定模型格式 告诉 SGLang 这是 GGUF 格式的模型
--context-length 6144 最大上下文长度 24G 显卡的黄金平衡点,再大就需要 offload 权重了
--kv-cache-dtype int8 KV 缓存精度 3090 最优选择,显存减半,速度不变
--mem-fraction-static 0.92 显存分配比例 给模型和 KV 缓存分配 92% 的显存(约 22.08GB),刚好放下你的模型 + 6K INT8 KV 缓存
--chunked-prefill-enabled 分块预填充 避免长 prompt 一次性吃光显存,提升稳定性
--enable-radix-cache 启用 Radix 缓存 多轮对话中自动复用历史 KV 缓存,速度提升 30% 以上
--chat-template qwen3 聊天模板 正
谢谢!!!
我以为论坛都是大佬。原来云。云。云。
下次看清楚了。
必须是实测,分享之类的 -
问完去睡觉,下半个月死磕QWEN 3.6 35B A3B.这 4 个参数 SGLang 0.5.11 实际安装版识别不到:
| 指南写的参数 | SGLang 实际是否支持 | |:---|:---| | --model-format gguf | ❌ 没有这个参数(应改用 --load-format gguf) | | --chunked-prefill-enabled | ❌ 没有(应改用 --chunked-prefill-size 512) | | --enable-radix-cache | ❌ 没有(默认已开,可调 --radix-eviction-policy) | | --extra-body | ❌ 不是启动参数(这是 API 请求体参数) | 那篇表格分析是理论推断,但实际 SGLang 0.5.11 装上去跑就是报这些错。要不要把所有参数改成 SGLang 实际支持的,再试一次看能不能过最后那一关?╰────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
抄作业都发现sglang根本没有你说的参数。请问sglang是那个版本??