关于Ubuntu部署llama.cpp的一些疑问
-
- 硬件配置
显卡 (GPU): AMD Radeon RX 7900 XTX (24GB VRAM)
计算环境: ROCm 驱动加速(gfx1100 架构)
内存 (RAM): 宿主机64GB - 系统环境
宿主机系统: Ubuntu 26.04 LTS
部署方式: Docker 容器化部署
镜像来源: rocm/dev-ubuntu-24.04
ROCm 版本: ROCM7.2.3-complete
问题:
1.第一次接触Ubuntu系统,请问我这样的部署方式对吗(宿主机尽量保证干净,llama.cpp、rocm直接放在容器里)
2.CLI模式启动参数一直报错,Gemini给我的解释是llama.cpp更新太快,指令经常更新,我不知道它有没有忽悠我,还有在对话过程中,终端会无间断、高频率地弹出 > 提示符,不给用户输入指令的机会,或者在用户输入后无响应并持续跳行。
3.llama-server可以正常使用,试了一下网页可以打开并使用,roo code插件接入也能正常写代码,麻烦帮我看看我的指令有没有其他问题
这是我服务启用的指令
cd /opt/llama.cpp/build/binHIP_VISIBLE_DEVICES=0 ./llama-server
--model ../../models/Qwen3.6-27B-Q4_K_M.gguf
--n-gpu-layers 99
--port 8080
--host 0.0.0.0本人小白一枚,昨天第一次跑通这个llama.cpp,请大神们解答一下,感谢
- 硬件配置
-
建议用ollama先部署一个本地小模型驱动起Claude code。然后以cc作为你学习Ubuntu的拐杖。它的harness范式绝对是你从新手到进阶甚至成为高手的利器。新手阶段会严格遵循帮你拿着操作日志
反馈去在线fetch/curl找解方,解决你至少95%的问题。学习方法和习惯真的很重要
@benton-yi 是的,我原来也是想着先把llama.cpp部署好,装个CC来当拐杖的,不过没想到装llama.cpp就出现问题了,不过好在llama.server目前可以正常使用,应该可以直接用来驱动CC;关键是本来也没接触过Linux,纯靠AI真的心理没底(曾今跟着AI研究软路由的设置,被AI当猴子耍了一晚上,最后和我说它出幻觉了),所以我把我已经做的东西发出来,让各位大佬帮我把把关,看看思路方向对不对,不要一条路走到黑。另外我想问一下用Qwen3.6-27B-Q4_K_M.gguf作为cc的本地驱动够不够用?速度大概在30t/s
-
@benton-yi 是的,我原来也是想着先把llama.cpp部署好,装个CC来当拐杖的,不过没想到装llama.cpp就出现问题了,不过好在llama.server目前可以正常使用,应该可以直接用来驱动CC;关键是本来也没接触过Linux,纯靠AI真的心理没底(曾今跟着AI研究软路由的设置,被AI当猴子耍了一晚上,最后和我说它出幻觉了),所以我把我已经做的东西发出来,让各位大佬帮我把把关,看看思路方向对不对,不要一条路走到黑。另外我想问一下用Qwen3.6-27B-Q4_K_M.gguf作为cc的本地驱动够不够用?速度大概在30t/s