@Jame-Huang 也就是说我的标题方案是可行的是吗?我目前三张卡都能识别的到,中间的5060ti 那张卡槽需要用显卡延长线,延长到机箱顶部,机箱用的是华硕GT302,第一张和第三张显卡之间还用了隔热板,电源仓库和第三张显卡之间也放了这个散热器隔板,8590cbb4-aabe-4e09-8c0b-e1198386642b-image.jpeg 
motorpro
@motorpro
-
请教大佬:本地部署Qwen3.6 27B INT8,硬件Z790 HERO + 64GB D5 内存 + 5070Ti 16G + 5060Ti 16G + 4060Ti 16G ,硬件和散热都已经验证没有问题的前提下,结合fastllm,能真的做到智能三卡分层吗? -
请教大佬:本地部署Qwen3.6 27B INT8,硬件Z790 HERO + 64GB D5 内存 + 5070Ti 16G + 5060Ti 16G + 4060Ti 16G ,硬件和散热都已经验证没有问题的前提下,结合fastllm,能真的做到智能三卡分层吗?@terry 谢谢,那我这个就没有必要换单卡 5090 32g对吧,反正我的工作内容强度不高
-
请教大佬:本地部署Qwen3.6 27B INT8,硬件Z790 HERO + 64GB D5 内存 + 5070Ti 16G + 5060Ti 16G + 4060Ti 16G ,硬件和散热都已经验证没有问题的前提下,结合fastllm,能真的做到智能三卡分层吗?@terry Z790 HERO 这个主板支持通道拆分, 第三插槽跑性能差一点的4060ti 应该影响不大吧,本地模式改为27b上Q4 KM,用llama.cpp 32GB 显存合并,大模型权重 100% 锁死在显存内。5060ti+5070ti 负责文案生成和推理,4060 Ti做辅助,可行吗?我主要是做电商,数据蒸馏,产品图片和短视频生成,目录更新,产品上架
-
请教大佬:本地部署Qwen3.6 27B INT8,硬件Z790 HERO + 64GB D5 内存 + 5070Ti 16G + 5060Ti 16G + 4060Ti 16G ,硬件和散热都已经验证没有问题的前提下,结合fastllm,能真的做到智能三卡分层吗?它是否真的可以把大模型最繁重的前 24 层交给算力爆炸的 5070 Ti (16G), 把中间的 16 层交给 5060 Ti (16G), 把最后比较轻松的 8 层交给老架构的 4060 Ti (16G), 这样一来,三张卡各司其职,完美榨干每一滴物理显存,完全避开了系统内存(RAM)的慢速读取瓶颈?