本地单显卡10G显存部署DeepSeek相关资源
-
首先说下,相关原理,我在视频里有详细讲解:https://www.youtube.com/watch?v=ux9z-Bqhzps
推理框架Fastllm:https://github.com/ztxz16/fastllm 4.3k星,到了这个级别就不是玩具了,是可实用的。
模型下载地址:https://modelscope.cn/models/huangyuyang/DeepSeek-V4-Flash-FP8-Q4 这是把原版FP4 FP8混合权重的FP4部分换成了INT4,因为这样有利于CPU AVX-512指令集反量化权重,官方原版FP8模型,FP4 FP8混合模型都能跑,但是速度没Q4转译的快。关于速度和推荐配置,大家可以去官网推荐的群里去询问相关信息,我这边有朋友实测9004配置没问题,能跑起来。所以第一个视频表述有错误,我删除了修正表述重发,防止误导大家。
近期我没计划测试这玩意,不过如果对1M上下文有刚需的情况下,我会尝试。
-
@terry 锤哥,我在组双4090D的机器的时候碰到个问题,电源必须是1600W朝上的 16A的,插座是10A的,用转接头一直满载跑会不会有火灾隐患,你那台4090D+7900XTX是怎么解决的呢
-
玩这个其实没有多大意义的吧。decode速度是还可以,prefill速度感人,看起来是不过百。想象一下读个system prompt几十秒,读个代码文件好几分钟,读个网页好几分钟,根本没法用吧。