




这个是256K TOKEN 全Q8精度的内存使用情况,用你们最爱的qwen3.6-27B,你自己参考吧。这个模型我也不知道你们为什么这么喜欢。要是编程的话,你要用Q4的话就用吧,反正模型要是一本正经的胡说八道,或者长文文本的时候丢失数据,你就会患上精度恐惧症了。当然满血大模型也有这个毛病,只要你能在程序中控制的住就行。因为是多次反复长文本交互,基本上就是精度越低毛病越多。这些128G MAC AMD NV的小机方案就是让你满血跑本地小模型用的,别的也没什么用。要是和这个本地满血小模型死磕了就加10000 买NV的128G机器,反正最后程序不成功你也赖不到模型。你要是说你想兼顾的话,显卡怎么也要有48G把,amd 和MAC的小机的话, AMD 的小机基本符合你的预算。64G 和128G 的问题 ,就是别让显存成为瓶颈。显存直接卡死了你的模型和精度,GPU 慢点就慢点,至少高精度还能跑。你单线程跑64G你随意,要是多线程跑128G基本是必须,当然咱们这些丐版设备也支持不了几个并发,只是多一个并发不就是多平分了一部分成本吗。
