接了一个装本地AI的活，苹果Studio 512G统一内存，跑Deepseek V4 flash

Xiaote

@Devin Hi 这活有意思！M3 Ultra 512G跑DeepSeek V4 flash理论上够用，几个建议供参考：

ollama + llama.cpp 是最快上手的方式，llama.cpp对Apple Silicon的优化已经很成熟了
MLX 是Apple官方的ML框架，对M系列芯片有深度优化，如果llama.cpp速度不理想可以试试
量化选择：512G内存跑FP8应该没问题，但如果要速度，Q4_K_M量化能让推理快不少
ds4.c 没听说过，可能是某个第三方精简实现？建议先试主流方案

等你的截图和过程分享～

Devin Hi

基于这个框架，也是在LLAM cpp上针对Apple进行了优化的。https://github.com/antirez/ds4?tab=readme-ov-file

terry

@Devin-Hi 看星标很牛，很多人追，可以尝试。

? 离线

26t/s的decode还能接受，这个448t/s的prefill速度，对于Agent工具而言实在是太骨感了。

一个Agent工具首次执行10k提示词都是基操。

? 离线

不过话说回来，M5系列芯片的Prefill速度有很大提升，预计跑这个应该能到700t/s左右的prefill速度。

terry

@王一民其实一般就是prefill重要，吐字速度差距不是很明显体验不出来，独立显卡的意义就在这里。

Grayson Ren

@devin-hi 跑起来了么？我也有这个设备老特让我卖了我也在想卖了是不是可以上2个 pro 6000

Fred

@Grayson-Ren 说:

@devin-hi 跑起来了么？我也有这个设备老特让我卖了我也在想卖了是不是可以上2个 pro 6000

你现在卖，是不是赚翻了啊。我靠感觉去年买个MAC ULTRA今年卖，就倒腾这个就挣不少了。

Grayson Ren

人民币61500入手现在价格预计翻一番但是很多人都不肯出不知道他们是怎么用我觉得我琢磨到唯一用法就是挂多个类似 27b 这样小模型组agent群单一模型只适合测试理论研究

terry

卖吧，赚差价，这玩意以后就是工业垃圾，单台没啥用

Grayson Ren

@terry 卖了可以至少有120000 拿一半搞pro6000 是不是太奢侈了手里硬件太多了还1个4090 1个 dgx spark 这2个是不是也够用了不行就接deepseek v4 api 用早点盈利也是好思路

Jame Huang

前排MARK.学习

Grayson Ren

我在部署ds4引擎等测试下结果看速度如何

Devin Hi

装机完毕，先说结论：M3 utral 512G，内存的确豪横，可以同时跑：deepseek V4 flash （q2量化）和 Qwen 3.6 -27B 稠密模型，体验30 t/秒，同时还跑了小龙虾和 hermes，内存占用率30%左右，GPU拉满，CPU 40%左右。第一次看到一台设备是内存处于闲置状态。感觉 M3 256G内存足够了，再高就是闲置，目前一台价格等于一台车。。。。。。。穷人看着眼馋，说卖了能换好几个Pro 6000 和 4090 呢。效果不如云端deepseek V4 flash。对于在乎成本的人来说真的没有必要。当然王思聪一类的土老板，可以玩具，发热不高，比我的7900XTX 冷静多了。

terry

@Devin-Hi 现在内存缺货，显得M3 Urtral很值钱，事实上它真的不行，早点卖个好价钱，换RTX Pro 6000.

Devin Hi

稍后发图
是的，我觉得赶紧卖，一台机子不到4个月，赚了大几万，不到十万买的，说最高能卖20万，有点炒币的感觉了

Devin Hi

@Grayson-Ren

从我的角度来说，你跑一个大模型还是几个大模型，你会发现GPU就是100%了，但内存就是30%。就是这样，等待的时间都是GPU的处理时间。

terry

@Devin-Hi 单独发给帖子，多弄几张图谈谈真实感受，给我做一期视频，云下，这玩意我可能买不起了....

抡锤者

接了一个装本地AI的活，苹果Studio 512G统一内存，跑Deepseek V4 flash