居然比被老特回复,那我就把前几天的简单LLM测试发一下数据,这是我前几天朋友圈发的:
第一手资料来了,vLLM 本地运行 Qwen3-8B 总占用32G, 权重占用8.8G/KV Cache占23,系统框架0.8G。 57.08 tokens/s,13.16 秒内生成了 751 个 token(包括思考过程和正式回复)。开启推理模式的情况下还能保持近 60 tokens/s,这表现还是相当让人满意的,这只是一块显卡。不到300W的功耗。和4090比起来还是相当给力的。现在用的FP8,改天试试FP16和多用户并发压榨测试,看能坚持得住几个人。新模型正在下载。个人感觉还是 qwen3.6-27b的会更帅一些。不接受反驳。
平台整体系统架构冗余度非常大。 还有很深的潜力可以挖,当然,还没有正式进入生产环节。不知道同时运行3个视频生成流+一个本地大模型反推会是啥样的能耗表现……
开机...400W 只有两张卡运行-600瓦 如果四张卡同时运行起来……看来我电费交少了……



