跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

FredF

Fred

@Fred
关于
帖子
41
主题
2
分享
0
群组
0
粉丝
1
关注
0

帖子

最新 最佳 有争议的

  • 部署llm用于写代码,构建本地项目
    FredF Fred

    @Vittoria-Veloso 说:

    问下,我的笔记本mac他的显存可以给到23gb左右,我发现4bit量化的qwen 3.6 27b明显强于qwen 3.5 9b 8bit换成3.5也类似。我只有2w rmb的预算是在买个mac 64gb还是上英伟达显卡,算了装台湾人上辉达显卡还是mac,2w人民币预算。我不想折腾Claude,封号太严重了,Gemini确实生成代码质量不太高,而且客户要求隐私。

    你这个需求有2万预算绰绰有余了。目前情况下一定是上独立显卡不管是R9700还是英伟达的某个魔改卡,肯定比mac的效果好。
    如果羡慕claude code的效果,又不想用官方模型,可以试试这个:https://github.com/Alishahryar1/free-claude-code 这个项目,把本地LLM伪装成claude code的官方网关,顶在你的本地llama.cpp之前,模拟出全功能的Opus、Sonnet、Haiku模型。你开发的客户端可以用claude code,享受全量功能和插件(包括automode也能开)。
    但更原生不折腾的方法也有,用trae.CN做编程,直接对接llama.cpp就是了(推荐)。

    LLM讨论区

  • 小小秀一下我的AI RIG
    FredF Fred

    @极品青蛙 说:

    @fred 我零刻gti15用的零刻600w显卡坞,就2个8pin,请教个接7900xtx这3个8pin的方案,豆包和卖家说价买个1分2的线插第二个8pin口,不要求性能发挥满,只要不烧卡就行,感谢!
    mmexport1778824176979.jpg

    还是稳妥起见,显卡坞有3个8P才保险。你看这些个帖子吧,很多人反对这样做:https://forums.tomshardware.com/threads/can-i-use-a-3-x-8-pin-7900-xtx-with-only-2-x-8-pins-connected-to-it.3809019/
    https://linustechtips.com/topic/1475161-is-rx-7900-xtx-able-to-work-from-2-pcie-cables-instead-of-3/

    AI硬件

  • 零刻GTI15+显卡坞+蓝宝石9700XTX从组装开始求帮助
    FredF Fred

    @terry 说:

    @Fred 不能这么搞,如果显卡坞只有2个8pin肯定不行,显卡坞带不动xtx,显卡坞要换。它功率不够。xtx必须3根。或则会有12+4 转3* 8pin才行。如果是R9700,它2* 8pin转16pin可以带的动,单8pin就150w左右。

    嗯。还是谨慎些的好。烧了卡可就麻烦。

    @张鑫磊 你还是以特哥说的为准。我的R9700是一根16PIN线,显卡坞有3个口,我就买了根3x8P转16P的线搞定的。但我那个卡、显卡坞都和你的不同,显卡坞最好还是要有3个8P才好适配你的卡。

    AI硬件

  • 零刻GTI15+显卡坞+蓝宝石9700XTX从组装开始求帮助
    FredF Fred

    @张鑫磊 说:

    合体了,机器CPU285H,64G内存,6T固态,显卡坞2个8PIN,显卡3个8PIN,该怎么去接?2跟线不行,问豆包说转接线1个8pin转2个8pin的,不知道行不行,就怕坏了显卡,显卡坞600w,每个pin口300w,在线等帮助。感谢老特小特,感谢路过的大神们!
    e5a0ac07526d61f9c80276ff84bf46c8.jpg 2007a62f544f3ecda2b0d9fa237d5dcd.jpg 183b924ec87ff954de7f2d58b0815551.jpg

    擦,你这个显卡坞比显卡少一根8pin线,跟我的不一样啊。我的显卡只有一根12+4P线。你的卡是3根8P线。我的显卡坞有3个8P口刚好可以一对一,你的显卡坞只有2个。
    不过我个人感觉你的显卡坞每个口都提供最高300w的功率,所以应该是一根直插,再买一个一分二的8PIN一分二线插显卡坞另一个口,就可以变成2分3了,插满显卡的3个口。本身8P线就只能提供150W,所以你的300W口一分二是没有问题的。

    AI硬件

  • 分享自己的經驗 # 7900 XTX 本地 LLM 優化實測報告(Qwen3.6-27B)
    FredF Fred

    一手测试数据,踩完坑走通全程,然后发出来的分享。这种是最有价值的。赞!

    LLM讨论区

  • 分享:4090/48G, R9700/32G, AI Max 395 (8060S) 跑大语言模型的实测数据
    FredF Fred

    @James-Wei 说:

    我是395用户,最近上了MTP,体验感好了很多,Qwen3.5-122B-A10B-Q4KXL可以跑到32t/s,Qwen3.6-35B-A3B-Q8KXL可以跑到55t/s,APEX-balance量化可以跑到75t/s, Qwen3.6-27B-Q4KXL可以跑到25t/s

    对。我也测试过那个PR,MTP确实是对TG速度效果显著。目前还有些限制,必然PP速度降低,多模态功能被抹掉,我就暂时不上,坐等MTP合入llama.cpp主线,然后AI MAX 395就能凭空性能翻倍了。

    LLM讨论区

  • 小小秀一下我的AI RIG
    FredF Fred

    @张老师 说:

    @Fred 说:

    不要买2个同样型号的狗东999显卡坞

    这个有什么说法吗?插到同一台机器上会Bug?

    第二个不识别,用tbctl list命令只能看见第一个。后来我反复测试,发现他们家显卡坞的每个设备UUID都相同。如果2个雷电设备UUID相同,Linux的tb驱动在授权(enroll)雷电设备的时候,是以UUID来区分设备的,结果是第二个没法用uuid授权了。因此我的第二个显卡坞不识别,我也没找到修改uuid的方法(据说是烧录在显卡坞固件的),最后就不折腾了,把第二个退了。

    AI硬件

  • 小小秀一下我的AI RIG
    FredF Fred

    @pilipala 说:

    @Fred 老哥的4090是狗东哪家买的,看看是不是一家,我的万一翻车了就买你那家的,还有R9700是1万1入的么?

    我在一家叫做天成智算买的,不过还是推荐自营的那两家。我这个的发货过程有点波折,他们一开始给我填了一个错误的单号,第二天就显示我已经收货了,实际上我连毛都没看到,货也显示被发到了浙江某个地址,跟我完全不在一个省。
    后来他们重新填了单号。货到之后我用Linux的gpu-burn工具压测一小时没问题,这几天用下来感觉还是不错,我就给他们确认收货了。

    AI硬件

  • 小小秀一下我的AI RIG
    FredF Fred

    @terry 说:

    @Fred 抄作业的材料凑足了,又能水一集。

    行。这些帖子特哥您看着随便用。

    AI硬件

  • 小小秀一下我的AI RIG
    FredF Fred

    再补,llama.cpp单卡命令行。
    743adb22-7fbe-4fa4-b2fe-f9edafd884f2-image.jpeg
    和分卡命令行:
    151a7009-e0de-4cdc-8741-4de75dbe0373-image.jpeg
    vllm命令行:
    f1b756bf-c403-465e-9edf-29b6e307492b-image.jpeg

    AI硬件

  • 小小秀一下我的AI RIG
    FredF Fred

    来补些图:
    图1:注意看,在下面一层有一个关键设备:大疆POWER 1000。当成一个UPS来用,都花了这么多小钱钱,买了卡买了机器,不要吝啬把电源配得保险一些,别因为电源闪断,或者电压不稳或者突然断电,烧了卡之后还要找修显卡的张哥,就麻烦大了。
    替代文字

    图2:4090显卡,以及狗东999的显卡坞,USB4和Ocuulink双接口,自带800w电源,很不错。但两个特别提醒:

    1. 不要买2个这种同样显卡坞插到同一台主机。因为它有个白痴低级失误:它的雷电UUID好像是固定的,没法改,每个显卡坞都是一样的UUID。因此在Linux下,只能识别一个这种显卡坞。当时我本来是买了2个这个显卡坞,但第二个始终不识别,这个问题当时折腾我好久。最后买了退,退了换,最后换了品牌,有了不同的TB UUID才搞定。着着实实享受了一把狗东的售后服务。
    2. 4090和R9700,都是12PIN+4PIN的PCI-E电源线,这个显卡坞不带这种线,只带3个8PIN线,需要自己买转接,或者显卡如果带也行。
      替代文字

    图3:霸气的绿联显卡坞,自带850W金牌电源,自带12PIN+4PIN,自带8PIN,通吃一切显卡。缺点是不便宜啊,显卡坞2000+的就不算便宜了:
    替代文字

    图4:颜值在线的R9700,这卡是真好看。但它在显卡坞上有个毛病要注意:如果主机不开机,它的风扇会狂转。
    替代文字

    图5图6:主机AI MAX 395,零刻的128G版本,刚去查了一下狗东,狗日的涨价到21000了!我当时买的时候14000。后面带2个10G网口,2个USB4 type-c,前置带指纹解锁(Windows才能用)。我插了2个显卡坞,都是type-c,后面看着也不拥挤,还好。我这个机器是Linux无头服务器,也不用它打游戏啥的,因此随意插了一个hdmi的线到显示器。干干净净的,不挤。
    替代文字
    替代文字

    总结一下几个坑:

    1. 不要买2个同样型号的狗东999显卡坞
    2. R9700外置,如果主机不开,风扇会狂转,此时只能自己去关显卡坞的电源
    3. 尽量上个UPS,对你的几万块的资产稍微好点
    AI硬件

  • 分享:4090/48G, R9700/32G, AI Max 395 (8060S) 跑大语言模型的实测数据
    FredF Fred

    @terry 说:

    @Fred 赶紧补图,我好白嫖一期,你这配置怎么能算误导呢?再说了,还得看我怎么写视频脚本对吧。

    行。明天我再硬件板块那个原贴里补些细节图。

    LLM讨论区

  • Mac M3 Utral 512G 跑AI
    FredF Fred

    deepseek v4 flash 的推理速度理论上确实应该比Qwen3.6 27B快的,因为它是个MoE模型,激活参数只有13B,比27B稠密模型确实是快一些。我估计27B稠密在这个机器上能跑到20t/s就挺不错了(如果不开MTP或者DFLASH这类)。
    但是ds4.c这个框架确实值得关注,因为作者太牛逼,如果我没看错的话,他是Redis的作者,在码农眼里属于现象级的人物。他觉得能拿出手的东西,那就肯定是NB的。

    AI硬件

  • 求教,顯卡的選擇
    FredF Fred

    如果你demo打游戏,那就5090D -_-;;;
    小特瞎说,Qwen3.6哪里来的70B,只有27B和35B MoE。这两个5090D都能跑。
    如果跑LLM,确实是显存大就可以为所欲为,R9700配合llama.cpp的分层功能,不算慢。也可以尝试vLLM的双卡TP,但我试了,A卡vLLM对Qwen3.6支持不行,一些旧模型可以,但上下文非常有限,性能不如N卡。真要尝试,用linux,用这位老哥的toolbox:https://github.com/kyuz0/amd-r9700-vllm-toolboxes/

    你要是demo视频生成啥的,那就问老特,这方面我没经验了。

    AI硬件

  • 小小秀一下我的AI RIG
    FredF Fred

    @johnnybegood 说:

    @Fred 这一套跟 6000 pro 96g 比起来如何呢?

    这两者相比属于是用法拉利对比大众高尔夫GTI了。PRO 6000单卡大显存,N卡最新架构,算力比5090略强,从生态,到实际的性能,都比这3货加起来还强不少。但我没法给你准确的数字,只知道肯定是PRO 6000强。
    考虑价格,我这套就算5万5吧,PRO 6000单卡7万,加配个主机,稍微配寒碜一点的主机估计总共8万5拿下吧。我觉得3万差价基本上就是两者性能上的差距。
    但是需要知道一点,我这个大众高尔夫GTI也不是一无是处,PRO 6000单卡跑230B大模型估计够呛,如果还想所有层都在显存里,更是不足够的。但我这个3个GPU加起来就可以跑出来不错的感受。

    AI硬件

  • 小小秀一下我的AI RIG
    FredF Fred

    @pilipala 说:

    @Fred 我和你一样,打工仔,只能利用业余时间折腾,如果能赚到外快最好,赚不到也无所谓,就当纯乐子玩了。4090 48周末终于要到了,老特这几天一直发硬件视频搞心态哈哈~

    哈哈。我也是看了老特视频,才去狗东淘了一块4090魔改卡的。爽真是爽,特别是在有对比的情况下。就是肉有点疼,好在狗东的物流也比较靠谱。

    AI硬件

  • 分享:4090/48G, R9700/32G, AI Max 395 (8060S) 跑大语言模型的实测数据
    FredF Fred

    @David-Zhang 说:

    作业牛逼,可以置顶!

    谢谢看帖和肯定!

    LLM讨论区

  • 分享:4090/48G, R9700/32G, AI Max 395 (8060S) 跑大语言模型的实测数据
    FredF Fred

    @terry 说:

    @Fred 我草,这绝对精华帖子,我要做一个单独视频,给老弟署名。你给弄几张 截图啊,最好是黑乎乎的背景,显得逼格高点。卡和设备给我再拍几张图片发进来。我做完视频加入这个链接,让大家来膜拜下你。

    哈哈不用单做视频特哥。我经常看你油管,学到很多东西,想着回报一下你。我的资料你随便用在视频里面。我是属于那种闲散玩法,比较佛系,有时间就来吹吹牛逼,分享点内容。不过我这个配置是有误导性的:不推荐显卡坞,有条件一定是尽量PCIE直连。我这是属于放养式玩法,不是生产力的标配,可靠性,性能都比PCIE直连差点意思。

    LLM讨论区

  • 小小秀一下我的AI RIG
    FredF Fred

    https://lcz.me/topic/143/分享-4090-48g-r9700-32g-ai-max-395-8060s-跑大语言模型的实测数据

    作业交了 @terry

    AI硬件

  • 分享:4090/48G, R9700/32G, AI Max 395 (8060S) 跑大语言模型的实测数据
    FredF Fred

    我的装备看这个帖子:
    https://lcz.me/topic/117/小小秀一下我的ai-rig/12

    这个帖子主要是分享一下用这套装备能怎么跑大模型(LLM),有哪些组合,能大概跑出来什么样的效果等等。

    GPU

    • RTX 4090 48G (独立显卡)
    • AMD Radeon AI PRO R9700 32G (独立显卡)
    • AMD Radeon 8060S Graphics 128G(AI MAX 395的集成显卡)

    各自的特点:

    1. AI Max 395:价格14000RMB左右,集成显卡代号8060S,共享内存128G,内存最大,能通吃许多大模型, 但算力最低,内存带宽260G左右,也是最低,所以跑大模型的速度最慢;
    2. 4090 48G:价格30000RMB左右,最贵,最快,显存带宽1TB左右,生态最好,vLLM可以跑得飞起,但48G显存吃不下超大模型,但跑27B模型或者30B模型,可以把上下文放256K,非常爽;
    3. R9700 32G:价格11000RMB左右,32G显存,速度尚可,性价比高,但算力和显存带宽(660G左右),都不如4090,因此速度介于8060S集成显卡和4090之间,能跑27B模型,选择Q4量化模型,上下文也能到256K。

    玩法

    分3类:

    1. 小模型单卡玩法,这就不说了,就是用一个卡跑一个模型;
    2. 中等模型分2卡玩法,例如Qwen3.5-122B模型,本来可以直接跑在AI MAX 395的集成显卡上,但我嫌他性能太差,然而4090和R9700两个卡,任何一个的显存又不够单跑这个模型,但2个卡加起来80G的VRAM就够了,因此可以将它用llama.cpp的-ts参数,分层到2块卡上跑,效果惊人地快;
    3. 超大模型分卡分3卡玩法,例如MiniMax M2.7这种,下载下来哪怕是Q4的量化版本,都有120多GB,连AI MAX 395的128GB都放不下(需要留内存给系统和kv cache),这种情况,可以把同一个模型分成3部分,让4090承担大头,AI MAX395承担中头,R9700承担小头。这样的性能会被AI MAX 395的集成显卡拖后腿,但是能跑,而且如果不用长上下文的Agent,仅用来聊天(利用超大知识库),性能也可以接受(吐字不慢)。

    后面我就把这几种方法跑出来的效果给大家汇报一下。

    测试工具

    llama-benchy: 我用这个工具,它是通过openai的兼容api端点做压测,可以对任何推理引擎做压测(我是vLLM和llama.cpp),它能反映最终用户(例如Hermes Agent)能真正感受到的速度。
    GitHub - eugr/llama-benchy: llama-benchy - llama-bench style benchmarking tool for all backends

    压测结果

    模型 参数量 量化方式 权重大小 推理框架 GPU PROMPT PREFILL (pp8192) TOKEN GENERATION (tg512)
    MiniMax2.7 230B-A10B UD-IQ4_XS 102GB llama.cpp (-ts) 4090+R9700+8060S 781.68 27.74
    Qwen3.5-122B-A10B 122B-A10B UD-Q4_K_XL 73GB llama.cpp 8060S 352.36 20.96
    Qwen3.5-122B-A10B 122B-A10B UD-Q4_K_XL 73GB llama.cpp (-ts) 4090+R9700 2234.51 53.63
    Qwen3.6-35B-A3B 35B-A3B Q5_K_XL 25G llama.cpp 4090 7978.24 162.10
    Qwen3.6-35B-A3B 35B-A3B Q5_K_XL 25G llama.cpp R9700 2880.76 79.05
    Qwen3.6-35B-A3B 35B-A3B Q5_K_XL 25G llama.cpp 8060S 946.44 50.77
    Qwen3.6-27B 27B AWQ-6Bit 26GB vLLM 4090 2557.59 115.47 (with MTP)
    Qwen3.6-27B 27B UD-Q6_K_XL 25GB llama.cpp 4090 2402.65 33.88
    Qwen3.6-27B 27B UD-Q4_K_XL 17GB llama.cpp R9700 914.31 26.56
    Qwen3.6-27B 27B UD-Q4_K_XL 17GB llama.cpp 8060S 281.44 11.83

    结论

    这个结果其实就和特哥常常讲的一样,有多少钱卖多少钱的设备:买贵的吃不了亏,买便宜的占不了太多便宜。
    以Qwen3.6-27B为例:

    1. 跑在AI MAX 395的8086S上,PP才281个,吐字才11个,这个机器14000RMB,你买到了128G的大显存,还得到了一台不错的windows/linux主机,但是速度没法和独立显卡相比;
    2. 跑在R9700上,PP一下子914个,吐字有26个每秒,这才是可用的速度,但代价是11000RMB;
    3. 跑在4090上,这生态上的优势马上就出来了,用vLLM打开成熟的MTP支持,多请求PP一下子2557个,吐字115个(不要去折腾A卡的vLLM了,我尝试过,Qwen3.6支持度不行,上下文有限, 单请求速度不如llama.cpp),即使跑在llama.cpp上,PP速度也能到2402,只是吐字速度稍慢,才33个(受限与1TB显存带宽以及没有成熟的MTP)。这个卡30000RMB左右,比R9700贵了2倍左右,但你得到的效果也是2倍。

    所以最后还是看自己,显卡这个市场现在基本上是一分钱一分货(除非被骗),不要纠结。自己想干啥,就买啥。

    备注!AI MAX 395现在要重新评价它了,现在涨价到21000左右了,性价比已经比14000的时候低很多了!

    LLM讨论区
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组