跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

Kk HhK

Kk Hh

@Kk Hh
关于
帖子
9
主题
0
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • 部署llm用于写代码,构建本地项目
    Kk HhK Kk Hh

    @高乐天 说:

    编程的话还是不建议用本地模型,尤其是对接 claude code 或 open code 这类编程代理工具,prefill 的速度慢的让人无法忍受。即使上 5090 ,prefill 3000+ , 本地编程模型的水平也实在一般,即使是 qwen3.6-27B 的编程水平也只是凑乎能用而已。

    这个说的很对啊,你有什么理由必须在本地部署编程模型呢。现在所有的小模型都算上,你本地部署就算是满血的,你也要对这些小模型做高度的限制适配,能力也就那样。就那点隐私,人家大公司我觉得才不在乎这个呢。唯一的需求就是云端没有这个模型,你偏要用。那你本地用,就回到了精度和适配上来了。搞了设备仅仅只是开始,我现在什么都没干,每次先填进100K的流程和限制文档,尤其是我用的这种越狱模型他抹除的不是你认为的限制,是真正模型中的所有限制。
    现在看来咱们这些消费级设备,就能干两件事事情比较靠谱:1,用显卡生成视频,2,用128G小机满血跑自定义模型。 用128G小机满血跑自定义模型,其实这个绝大数编程的人也根本用不到。

    LLM讨论区

  • 软路由及内网穿透 - 请教各位老大
    Kk HhK Kk Hh

    我突然想起来一个东西,花生壳只要你付费穿透的速度和稳定行还是可以的,的确可以全球组网。最近两年感觉花生壳的全球网络比TEAMVIEWER 强了,还便宜,当然我说的是付费版本啊。tailscale ZeroTier 穿全球的时候有的时候不稳定,会被临时封锁。

    网络技术

  • 部署llm用于写代码,构建本地项目
    Kk HhK Kk Hh

    33ff62be-3023-48bc-8f73-3e467937071b-image.jpeg
    c475a620-c85e-4f1e-b9b5-a3e1a1c23f7c-image.jpeg
    58223ae8-1910-47dd-ad1b-ea2c87878f86-image.jpeg
    e0e3774c-536b-41fa-838c-d2141e8d5946-image.jpeg
    1234cbeb-c8ef-4b3b-be45-cd817c651ef7-image.jpeg

    这个是256K TOKEN 全Q8精度的内存使用情况,用你们最爱的qwen3.6-27B,你自己参考吧。这个模型我也不知道你们为什么这么喜欢。要是编程的话,你要用Q4的话就用吧,反正模型要是一本正经的胡说八道,或者长文文本的时候丢失数据,你就会患上精度恐惧症了。当然满血大模型也有这个毛病,只要你能在程序中控制的住就行。因为是多次反复长文本交互,基本上就是精度越低毛病越多。这些128G MAC AMD NV的小机方案就是让你满血跑本地小模型用的,别的也没什么用。要是和这个本地满血小模型死磕了就加10000 买NV的128G机器,反正最后程序不成功你也赖不到模型。你要是说你想兼顾的话,显卡怎么也要有48G把,amd 和MAC的小机的话, AMD 的小机基本符合你的预算。64G 和128G 的问题 ,就是别让显存成为瓶颈。显存直接卡死了你的模型和精度,GPU 慢点就慢点,至少高精度还能跑。你单线程跑64G你随意,要是多线程跑128G基本是必须,当然咱们这些丐版设备也支持不了几个并发,只是多一个并发不就是多平分了一部分成本吗。

    LLM讨论区

  • 部署llm用于写代码,构建本地项目
    Kk HhK Kk Hh

    写程序,你最好考虑128G的显存方案, 64G 基本上都是刚够用,什么硬件你自己看吧,256k TOKEN 一开 ,64G 也就支持两个并发。如果你的编译器插件要支持多并发的模型运算,64G 肯定就炸了。写程序 ,你就想TOKEN长,这样精度高,但TOKEN 长了就吃显存多,然后你再想多并发显存疯狂上涨,我现在还一直处于显存恐惧症中。Prefill 不能太慢,长TOKEN 往里塞等待时间太长。
    47f43f70-c276-4d05-b733-2831e94a0a69-image.jpeg

    LLM讨论区

  • 软路由及内网穿透 - 请教各位老大
    Kk HhK Kk Hh

    Tailscale 就是一个VPN ZeroTier就是一个虚拟网卡 你自己选吧,我的GB10上装的是ZeroTier

    网络技术

  • 请教:ASUS Ascent GX10
    Kk HhK Kk Hh

    @Fangbo-Da 我觉得把你真的没有必要折腾,DeepSeek-V4-Flash 这个模型精度就不高。你先买个云端的玩几天你再想想你用什么模型吧,模型决定设备。 这个云端模型我也不知道你用的是什么, 反正我是OLLAMA CLOUD ,全是满血免费大模型,那个顺手用那个。459c0f92-4b22-46fb-af59-10530c9341a1-image.jpeg a5d04717-03c6-49dc-b0ab-cc452a4aa8f3-image.jpeg
    你这个需求OLLAMA CLOUD 一个月20美金 的订阅我觉得就够了,最差你也感受一下到底要用什么模型。你偏要做视频,你就买个5090最好了,直接出视频。
    这里是OLLAMA 的模型列表 https://ollama.com/search
    DGX SPARK 就是做了一个小模型的定位填补,因为这些小模型很少有云端提供服务。

    AI硬件

  • 请教:ASUS Ascent GX10
    Kk HhK Kk Hh

    776e0b7f-5b44-4f62-9e7d-ddcb587fcf86-image.jpeg
    一个小模型你不着急速度,全是Q8精度 256KTOEKN 长度,两个并发,跑起来挺好的,反正对的起这个价格。你要是既要又要,那就别买DGX SPARK。

    AI硬件

  • 请教:ASUS Ascent GX10
    Kk HhK Kk Hh

    DGX Spark 问题就是热加慢。好处就是没有显存焦虑,没有长文本焦虑,价格相对便宜。DGX Spark 本来就慢两台放一起更慢,你要是觉得一台能跑DGX Spark 你就买,两台不建议,做视频也不用考虑肯定慢。DGX Spark 定位我觉得就是单台小模型长文本。

    AI硬件

  • 搞机Nvidia DGX Spark(128G 4T),累
    Kk HhK Kk Hh

    6486fd49-eeb5-44bd-b26b-daa796db8206-image.jpeg
    没搞懂,你们想干嘛,反正也是 DGX Spark 技嘉版本的

    LLM讨论区
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组