跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

Devin HiD

Devin Hi

@Devin Hi
关于
帖子
13
主题
2
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • Mac M3 Utral 512G 跑AI
    Devin HiD Devin Hi

    王思聪说:我喝豆浆就是喝一碗,倒一碗。
    WechatIMG1700.jpg
    WechatIMG1703.jpg
    所以以下全是一个屌丝 帮 土豪在Mac M3 Utral 512G 上跑 AI。

    1. ds4+ deepseek V4 flash
      框架ds4:https://github.com/antirez/ds4.git

    deepseek V4 qt2, 本来可以直接用qt4(但我小家子气,怕效果不好)

    启动参数:./ds4-server
    --ctx 131072
    --kv-disk-dir /tmp/ds4-kv
    --kv-disk-space-mb 65536

    1. LM studio+ qwen3.6-27B( 同时跑了一下,可以运行,因为内存还有很多空间,但感觉单模型相应速度有下降)

    装机过程比较顺利,没有太多暗坑,比较顺利!但也没有过细优化:

    效果: 30Token/秒 ,虽然不是非常慢,但还是慢(和云端比),即便时同时多开(同时跑 Qwen和DSV4),只会更慢,没有明显的提升。因为GPU已经到了100%

    截屏2026-05-14 22.32.30.jpg
    截屏2026-05-14 22.32.56.jpg
    截屏2026-05-14 22.33.01.jpg
    截屏2026-05-14 22.33.03.jpg

    AI硬件

  • 接了一个装本地AI的活,苹果Studio 512G统一内存,跑Deepseek V4 flash
    Devin HiD Devin Hi

    @Grayson-Ren

    从我的角度来说,你跑一个大模型还是几个大模型,你会发现GPU就是100%了,但内存就是30%。 就是这样,等待的时间都是GPU的处理时间。

    LLM讨论区

  • 接了一个装本地AI的活,苹果Studio 512G统一内存,跑Deepseek V4 flash
    Devin HiD Devin Hi

    稍后发图
    是的,我觉得赶紧卖,一台机子不到4个月,赚了大几万,不到十万买的,说最高能卖20万,有点炒币的感觉了

    LLM讨论区

  • 接了一个装本地AI的活,苹果Studio 512G统一内存,跑Deepseek V4 flash
    Devin HiD Devin Hi

    装机完毕,先说结论:M3 utral 512G,内存的确豪横,可以同时跑:deepseek V4 flash (q2量化) 和 Qwen 3.6 -27B 稠密模型,体验30 t/秒, 同时还跑了小龙虾和 hermes,内存占用率30%左右,GPU拉满,CPU 40%左右。第一次看到 一台设备 是内存处于闲置状态。感觉 M3 256G内存足够了,再高就是闲置,目前一台价格等于一台车。。。。。。。穷人看着眼馋,说卖了能换好几个Pro 6000 和 4090 呢。效果不如云端deepseek V4 flash。对于在乎成本的人来说真的没有必要。当然王思聪一类的土老板,可以玩具,发热不高,比我的7900XTX 冷静多了。

    LLM讨论区

  • 接了一个装本地AI的活,苹果Studio 512G统一内存,跑Deepseek V4 flash
    Devin HiD Devin Hi

    基于这个框架,也是在LLAM cpp上针对Apple进行了优化的。https://github.com/antirez/ds4?tab=readme-ov-file

    LLM讨论区

  • 接了一个装本地AI的活,苹果Studio 512G统一内存,跑Deepseek V4 flash
    Devin HiD Devin Hi

    接了一个装本地AI的活,苹果Studio 512G统一内存,M3 Max ,跑Deepseek V4 flash
    可能需要折腾一下
    如果顺利,
    会把截图和过程放出来。
    有人知道ds4.c 这个架构吗?

    LLM讨论区

  • Hermes TTS(语音回复,Discord语音频道交互)本地搭建分享(4GB显存要求)
    Devin HiD Devin Hi

    可以跑数字人格吗?这个有真实的业务场景

    AI Agent

  • 7900XTX + llama.cpp Qwen3.6 27B TurboQuant + MTP 测试结果分享
    Devin HiD Devin Hi

    此配置经测试(Hermes跑大任务),24G的显存 容易爆OOM

    所以改为了
    --ctx-size 65536
    --batch-size 512
    --ubatch-size 128 \

    LLM讨论区

  • Mac mini m4 24G又或者16G的定位?
    Devin HiD Devin Hi

    @xx8897
    我就卖了32G m4, 然后再添了2千元,换了一台16G继续养龙虾,装nas,再换了一个7900XTX,目前感觉还行,运行效果比什么苹果跑本地AI强多了,
    我个人的感觉,个人设备 苹果就是最优选择
    但靠近生产力和服务端,
    还得是传统

    LLM讨论区

  • 7900XTX + llama.cpp Qwen3.6 27B TurboQuant + MTP 测试结果分享
    Devin HiD Devin Hi

    @williamlouis
    为啥?
    我感觉挺好,这是穷人玩AI的最佳选择
    玩3090 怕遇到矿卡
    再往上就不是穷人了。

    LLM讨论区

  • 7900XTX + llama.cpp Qwen3.6 27B TurboQuant + MTP 测试结果分享
    Devin HiD Devin Hi

    没有完全按楼主提供的模型,只是增加了mmproj,感觉7900 不到30t/s,不知道Hermis怎么样。“/home/devin/work/llama.cpp-turboquant/build/bin/llama-server
    -m /home/devin/work/models/Qwen3.6-27B-Q4_K_M.gguf
    --mmproj /home/devin/work/models/mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-f16.gguf
    --host 0.0.0.0
    --port 8081
    --n-gpu-layers 999
    --ctx-size 262144
    --batch-size 2048
    --ubatch-size 768
    --threads 8
    --temp 1.0
    --top-p 0.95
    --top-k 20
    --min-p 0.00
    --presence_penalty 1.5
    --cache-type-k turbo3
    --cache-type-v turbo3”

    LLM讨论区

  • Qwen3.6 27b & DeepSeek V4 Flash跑Hermes 资料截图,生成网页。
    Devin HiD Devin Hi

    我的模型是Qwen3.6-27B-Q4_K_M.gguf ,即便加了,也无法支持多模态,需要相应的多模态的模型

    AI Agent

  • Qwen3.6 27b & DeepSeek V4 Flash跑Hermes 资料截图,生成网页。
    Devin HiD Devin Hi

    ./llama.cpp/build/bin/llama-server
    -m ./models/Qwen3.6-27B-Q4_K_M.gguf
    --host 0.0.0.0
    --port 8081
    --ctx-size 131072
    --parallel 1
    --cache-type-k q8_0
    --cache-type-v q8_0
    --flash-attn on
    --mlock
    --reasoning-budget 0

    7900XTX完全可以跑通,而且体感良好

    AI Agent
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组