接了一个装本地AI的活，苹果Studio 512G统一内存，跑Deepseek V4 flash

Reply to 接了一个装本地AI的活，苹果Studio 512G统一内存，跑Deepseek V4 flash on Thu, 14 May 2026 13:46:40 GMT

terry — Thu, 14 May 2026 13:46:40 GMT

@Devin-Hi 单独发给帖子，多弄几张图谈谈真实感受，给我做一期视频，云下，这玩意我可能买不起了....

Reply to 接了一个装本地AI的活，苹果Studio 512G统一内存，跑Deepseek V4 flash on Thu, 14 May 2026 13:45:24 GMT

Devin Hi — Thu, 14 May 2026 13:45:24 GMT

@Grayson-Ren

从我的角度来说，你跑一个大模型还是几个大模型，你会发现GPU就是100%了，但内存就是30%。就是这样，等待的时间都是GPU的处理时间。

Reply to 接了一个装本地AI的活，苹果Studio 512G统一内存，跑Deepseek V4 flash on Thu, 14 May 2026 13:41:27 GMT

Devin Hi — Thu, 14 May 2026 13:41:27 GMT

稍后发图
是的，我觉得赶紧卖，一台机子不到4个月，赚了大几万，不到十万买的，说最高能卖20万，有点炒币的感觉了

Reply to 接了一个装本地AI的活，苹果Studio 512G统一内存，跑Deepseek V4 flash on Thu, 14 May 2026 13:37:19 GMT

terry — Thu, 14 May 2026 13:37:19 GMT

@Devin-Hi 现在内存缺货，显得M3 Urtral很值钱，事实上它真的不行，早点卖个好价钱，换RTX Pro 6000.

Reply to 接了一个装本地AI的活，苹果Studio 512G统一内存，跑Deepseek V4 flash on Thu, 14 May 2026 13:35:20 GMT

Devin Hi — Thu, 14 May 2026 13:35:20 GMT

装机完毕，先说结论：M3 utral 512G，内存的确豪横，可以同时跑：deepseek V4 flash （q2量化）和 Qwen 3.6 -27B 稠密模型，体验30 t/秒，同时还跑了小龙虾和 hermes，内存占用率30%左右，GPU拉满，CPU 40%左右。第一次看到一台设备是内存处于闲置状态。感觉 M3 256G内存足够了，再高就是闲置，目前一台价格等于一台车。。。。。。。穷人看着眼馋，说卖了能换好几个Pro 6000 和 4090 呢。效果不如云端deepseek V4 flash。对于在乎成本的人来说真的没有必要。当然王思聪一类的土老板，可以玩具，发热不高，比我的7900XTX 冷静多了。

Reply to 接了一个装本地AI的活，苹果Studio 512G统一内存，跑Deepseek V4 flash on Thu, 14 May 2026 10:26:55 GMT

Grayson Ren — Thu, 14 May 2026 10:26:55 GMT

我在部署ds4引擎等测试下结果看速度如何

Reply to 接了一个装本地AI的活，苹果Studio 512G统一内存，跑Deepseek V4 flash on Thu, 14 May 2026 06:04:59 GMT

Jame Huang — Thu, 14 May 2026 06:04:59 GMT

前排MARK.学习

Reply to 接了一个装本地AI的活，苹果Studio 512G统一内存，跑Deepseek V4 flash on Thu, 14 May 2026 00:15:54 GMT

Grayson Ren — Thu, 14 May 2026 00:15:54 GMT

@terry 卖了可以至少有120000 拿一半搞pro6000 是不是太奢侈了手里硬件太多了还1个4090 1个 dgx spark 这2个是不是也够用了不行就接deepseek v4 api 用早点盈利也是好思路

Reply to 接了一个装本地AI的活，苹果Studio 512G统一内存，跑Deepseek V4 flash on Wed, 13 May 2026 23:31:57 GMT

terry — Wed, 13 May 2026 23:31:57 GMT

卖吧，赚差价，这玩意以后就是工业垃圾，单台没啥用

Reply to 接了一个装本地AI的活，苹果Studio 512G统一内存，跑Deepseek V4 flash on Wed, 13 May 2026 23:29:09 GMT

Grayson Ren — Wed, 13 May 2026 23:29:09 GMT

人民币61500入手现在价格预计翻一番但是很多人都不肯出不知道他们是怎么用我觉得我琢磨到唯一用法就是挂多个类似 27b 这样小模型组agent群单一模型只适合测试理论研究

Reply to 接了一个装本地AI的活，苹果Studio 512G统一内存，跑Deepseek V4 flash on Wed, 13 May 2026 16:08:53 GMT

Fred — Wed, 13 May 2026 16:08:53 GMT

@Grayson-Ren 说:

@devin-hi 跑起来了么？我也有这个设备老特让我卖了我也在想卖了是不是可以上2个 pro 6000

你现在卖，是不是赚翻了啊。我靠感觉去年买个MAC ULTRA今年卖，就倒腾这个就挣不少了。

Reply to 接了一个装本地AI的活，苹果Studio 512G统一内存，跑Deepseek V4 flash on Wed, 13 May 2026 15:21:42 GMT

Grayson Ren — Wed, 13 May 2026 15:21:42 GMT

@devin-hi 跑起来了么？我也有这个设备老特让我卖了我也在想卖了是不是可以上2个 pro 6000

Reply to 接了一个装本地AI的活，苹果Studio 512G统一内存，跑Deepseek V4 flash on Wed, 13 May 2026 13:34:11 GMT

terry — Wed, 13 May 2026 13:34:11 GMT

@王一民其实一般就是prefill重要，吐字速度差距不是很明显体验不出来，独立显卡的意义就在这里。

Reply to 接了一个装本地AI的活，苹果Studio 512G统一内存，跑Deepseek V4 flash on Wed, 13 May 2026 13:22:27 GMT

王一民 — Wed, 13 May 2026 13:22:27 GMT

不过话说回来，M5系列芯片的Prefill速度有很大提升，预计跑这个应该能到700t/s左右的prefill速度。

Reply to 接了一个装本地AI的活，苹果Studio 512G统一内存，跑Deepseek V4 flash on Wed, 13 May 2026 13:19:48 GMT

王一民 — Wed, 13 May 2026 13:19:48 GMT

26t/s的decode还能接受，这个448t/s的prefill速度，对于Agent工具而言实在是太骨感了。

一个Agent工具首次执行10k提示词都是基操。

Reply to 接了一个装本地AI的活，苹果Studio 512G统一内存，跑Deepseek V4 flash on Wed, 13 May 2026 12:45:00 GMT

terry — Wed, 13 May 2026 12:45:00 GMT

@Devin-Hi 看星标很牛，很多人追，可以尝试。

Reply to 接了一个装本地AI的活，苹果Studio 512G统一内存，跑Deepseek V4 flash on Wed, 13 May 2026 12:34:37 GMT

Devin Hi — Wed, 13 May 2026 12:34:37 GMT

基于这个框架，也是在LLAM cpp上针对Apple进行了优化的。https://github.com/antirez/ds4?tab=readme-ov-file

Reply to 接了一个装本地AI的活，苹果Studio 512G统一内存，跑Deepseek V4 flash on Wed, 13 May 2026 11:56:43 GMT

Xiaote — Wed, 13 May 2026 11:56:43 GMT

@Devin Hi 这活有意思！M3 Ultra 512G跑DeepSeek V4 flash理论上够用，几个建议供参考：

ollama + llama.cpp 是最快上手的方式，llama.cpp对Apple Silicon的优化已经很成熟了
MLX 是Apple官方的ML框架，对M系列芯片有深度优化，如果llama.cpp速度不理想可以试试
量化选择：512G内存跑FP8应该没问题，但如果要速度，Q4_K_M量化能让推理快不少
ds4.c 没听说过，可能是某个第三方精简实现？建议先试主流方案

等你的截图和过程分享～

Reply to 接了一个装本地AI的活，苹果Studio 512G统一内存，跑Deepseek V4 flash on Wed, 13 May 2026 10:22:30 GMT

terry — Wed, 13 May 2026 10:22:30 GMT

不太清楚，苹果M3 Ultra跑DeepSeek V4有人跑起来了，似乎速度不理想。omlx架构看看，应该现在是版本答案了。