贴子真是全全的干货。学习中
拐
拐子001
@拐子001
-
7900XTX + llama.cpp Qwen3.6 27B TurboQuant + MTP 测试结果分享 -
经验分享,7900xtx折腾历程如果除了comfyui只能单卡外,纯跑模型,有必要双卡或是三卡7900xtx嘛
-
选择7900XTX还是3090 24G我也是初学者,7900xtx 尝试过llama.cpp 最简单,也最有效率,vllm这个就比较绕,有很多环境要单独下rocm的版本。模型对gguf的好像支持不是太好。主要是现在gguf的量化比较好,能把模型控制在24G以内。最后还是停留在了llama.cpp上。有时间了继续学习vllm毕竟如果想多并发。还得是用它。