跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

C

coin1860

@coin1860
关于
帖子
4
主题
1
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • 3080 20G*2的有没有,来交流啊兄弟们
    C coin1860

    tp 必须要pcie4 x8 , pcie3 tp prefill 速度会慢过单卡pp

    AI硬件

  • 3080ti这速度不错啊
    C coin1860

    这么说实际两张魔改3080 20g 配合pcie4 x8分拆的主板性价比更高, 就是ddr4的内存现在这个价位比较蛋疼

    AI硬件

  • Lucebox DFlash + PFlash 7900XTX Qwen3.6-27B ~2.8–3.1x加速 测试数据分享
    C coin1860

    dflash 不错, pflash 要关注一下, 我让gemini 搜索作者承认pflash 不是无损的。 作为agent 我觉得无所谓, 但是编程就有点伤。还是等你们测试实际的效果。

    LLM讨论区

  • 16g 6800xt 推理qwen 3.6 27b 的经验分享 已经对amd prefill 速度的问题。
    C coin1860

    我现在用6800xt 推理IQ3_XSS 的模型, 开mpt2 kv设置q4_0 可以很勉强的运行128k 上下文。 这时候显存99

    速度在64k上下文prefill 200, TG 28~38。 这个速度用opencode 做一些简单的代码开发已经可以满足的。 但是对amd的prefill 速度很不满意。 使用hermes 进场读一个tools的反馈需要30秒。

    我差了一些资料3090 在128k 上下文pp 也能做到1000+, 而7900xtx 只有400~500的pp, 那面对超长上下文的prompt process 速度可以忍受么? 如果重度agent 是不是3090 是唯一解?

    现在使用7900xtx 推理qwen 3.6 27b的同学, 你们的prefill 速度满意么?

    /data/dev/llama-mtp-stable/build/bin/llama-server -m "/data/llm/models/Qwen3.6-27B-UD-IQ3_XXS.gguf" -ngl 99 -c 128192 -fa on -np 1 --spec-type draft-mtp --spec-draft-n-max 2 --host 0.0.0.0 --cache-type-k q4_0 --cache-type-v q4_0 --logit-bias 151649-inf,151650-inf --parallel 1 --spec-draft-p-min 0.75 --reasoning-budget 512

    LLM讨论区
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组