本地单显卡10G显存部署DeepSeek相关资源

terry

首先说下，相关原理，我在视频里有详细讲解：https://www.youtube.com/watch?v=ux9z-Bqhzps

推理框架Fastllm：https://github.com/ztxz16/fastllm 4.3k星，到了这个级别就不是玩具了，是可实用的。
模型下载地址：https://modelscope.cn/models/huangyuyang/DeepSeek-V4-Flash-FP8-Q4 这是把原版FP4 FP8混合权重的FP4部分换成了INT4，因为这样有利于CPU AVX-512指令集反量化权重，官方原版FP8模型，FP4 FP8混合模型都能跑，但是速度没Q4转译的快。

关于速度和推荐配置，大家可以去官网推荐的群里去询问相关信息，我这边有朋友实测9004配置没问题，能跑起来。所以第一个视频表述有错误，我删除了修正表述重发，防止误导大家。

近期我没计划测试这玩意，不过如果对1M上下文有刚需的情况下，我会尝试。

zhiqing

和ktransformers类似权重都加载到内存里吧

terry

这玩意还是要用显卡推理，原理应该差不多，但它比KT效果更好，目前就它能做到v4丝滑

墙内人

配件就多到头皮发麻

pilipala

@terry 锤哥，我在组双4090D的机器的时候碰到个问题，电源必须是1600W朝上的 16A的，插座是10A的，用转接头一直满载跑会不会有火灾隐患，你那台4090D+7900XTX是怎么解决的呢

stakira

玩这个其实没有多大意义的吧。decode速度是还可以，prefill速度感人，看起来是不过百。想象一下读个system prompt几十秒，读个代码文件好几分钟，读个网页好几分钟，根本没法用吧。

terry

@pilipala 我1200w电源，一直跑没啥问题。我是xtx最高300w，驱动限制了这么多，然后4090d 425w，一般在400w以内，其它的消耗不超过150w。你的两个4090d满载加起来850w，其他的加起来150w。1000w到顶了。你上1200w也就够了。电源没那么玄乎，买大品牌的全模组就好。

terry

@stakira 参考苹果，一个鸟样

抡锤者

本地单显卡10G显存部署DeepSeek相关资源