@ezios
2个2080ti 22g可以跑q8或者w8a8以及w8a16的模型,显存是够的,上下文能64k以上,压缩上下文可以到128k
速度方面用27b优化的好也就20t/s,所以我更建议用35b
T
tutu
@tutu
-
我的ai硬件方案分享 -
我的ai硬件方案分享@lxbs
机器1: 待机70瓦,满载800瓦
机器2:待机80瓦,满载650瓦
机器3:待机45瓦,满载80瓦
网络结构:入户电信千兆宽带,2.5g光猫 接
r66s软路由 接
双2.5g口的wifi7 AP 接
4口2.5g+2口万兆sfp+交换机 接
机器1,2,3
平时用智能插座配合主板上电自动开机使用,我的宽带有公网IP,配置端口转发后可以随时登录不用了就关机,用不上万兆 -
我的ai硬件方案分享机器1:模型推理机
CPU:i5-10600K
主板:技嘉z490 auros pro ax
内存:16+8+8+16
硬盘:东芝xg3 512g + 镁光5100pro 960g
显卡:RTX2080ti 22G X2 nvlink
电源:鑫谷gm1250 atx3.0机器2:模型+智能体混合机
CPU:i7-11800H
主板:铭瑄11800H板U
内存:32+32
硬盘:三星970pro 512g + 英特尔s3610 800G
显卡:RTX3090
电源:先马xp1000 V3机器3:飞牛存储服务器
CPU:i7-7700
主板:华硕b150m-plus-d3
内存:8+8+8+8
硬盘:三星sm961 256g + 东芝mg08 8Tx2 + 西数紫盘4Tx2
电源:鑫谷gp700G 黑金全模组
网卡:扩展rtl8125网卡部署情况
机器1:gpustack ,(qwen3.6-35b-a3b,qwen3-embedding,qwen3-rerank)常驻 ,ragflow,obsidian
机器2:1panel,gpustack,(qwen3.6-27b,comfy-ui )按需,harmes以及杂七杂八的容器