跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

bily jB

bily j

@bily j
关于
帖子
7
主题
2
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • 我尝试了mtp和tuboquant
    bily jB bily j

    @墙内人 好像vllm+mtp在24G显卡上上下文是很短的

    AI硬件

  • 我尝试了mtp和tuboquant
    bily jB bily j

    @墙内人 你的显卡是多少?

    AI硬件

  • 我尝试了mtp和tuboquant
    bily jB bily j

    llama.cpp是不是要吃足他的上下文,是不是只要nvidia-smi只要没高于24就好了?AI配置这个上下文窗口一般都给的很保守

    AI硬件

  • 我尝试了mtp和tuboquant
    bily jB bily j

    @大魔头 感觉没啥卵用

    AI硬件

  • 在vllm和sglang的框架使用中
    bily jB bily j

    我上次是跟你在评论里讨论过,就是跑起来了,但是都碰到模型加载的问题,好像对gguf适配不行,要AWQ或者P开头的那个,但问题是那个模型比GGUF大,上次你跟我说vllm,sglang在4090-24G显卡里就不要考虑了,但是奈何45TOKEN等的蛋疼

    AI硬件

  • Llama.cpp如何上传图片
    bily jB bily j

    这个图片识别是不是跟模型有关,qwen3.6-27B我问AI说Q4.GGUF是文本模型,让我下载带VL的,我下载了确实能识别
    ,也不知道是量化作者脱了图片识别能力还是模型本身就不支持

    LLM讨论区

  • 我尝试了mtp和tuboquant
    bily jB bily j

    感觉我linux服务器上的4090-24G显卡好像也没突破限制阿 ,我是llama.cpp架构,该45token/s还是一样,奶奶的,你测试怎么样老特?36-27B养马香是香就是推理有点慢

    AI硬件
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组