跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

rich kingR

rich king

@rich king
关于
帖子
4
主题
1
分享
0
群组
0
粉丝
0
关注
0

帖子

最新 最佳 有争议的

  • 请教大佬:Q4相比FP8,运行qwen3.6 27B,质量下降很大么?
    rich kingR rich king

    @michael-gong 说:

    取决于你的用途.

    如果是写文章, 创意, 不在意严谨的细节, 区别不大.
    如果用来跑长链推理, 比如写代码改 bug, 法律逻辑推理, 会计等场景, 区别还是很明显的. q4 量化以后, 模型在这些场景下会难以抓住细节, 逻辑推理可能产生明显漏洞. 这些场景最好用 q8 或者 fp8.

    看这篇文章, 里面对长链推理有实测数据
    https://willitrunai.com/blog/quantization-q4-q8-fp16-explained
    假设原始训练精度 fp16 是无损:

    1. Q8_0 量化后, 统计上与FP16无差别, 困惑度~+0.85%
    2. Q6_K 量化, 近乎无损, 困惑度~+2.23%
    3. Q5_K_M 量化, 低损失, 困惑度~+3.53%
    4. Q4_K_M 量化, 中等损失, 困惑度~+5.35%

    其实从数学上你就可以明显感知,
    q8 指的是 8 位整数, 一共有 2⁸ = 256 档, 所以Q8量化,就是把原始精度 fp16(65536) 映射到 256 档中某一个.
    而 q4 是 2⁴ = 16 种, Q4 量化只能把原始精度 fp16(65536)映射到 16 档中的某一个. 所以会丢失大量细节.

    这就是为什么搞文章创作, 适合用大参数量 moe 模型配合 q4 量化, 因为搞创意不太在意严谨细节, 有点偏差无所谓, 说不定还能涌现新的点子.
    但是但凡要精确+严谨, 那么至少 q6 整数量化, 最好 fp8 浮点量化.
    比较新的显卡对 fp8 有专门加速, 显著缩短 prefill 时间, 就是首 token 延迟.

    受益匪浅,感谢!我的应用场景对AI的推理准确度、上下文获取精度有一定要求,所以准备入手大显存装备了,最后还得靠钞能力,哈哈……

    LLM讨论区

  • 请教大佬:Q4相比FP8,运行qwen3.6 27B,质量下降很大么?
    rich kingR rich king

    Jame-Huang 说:

    @rich-king 你说这个,其实我也想过,我觉得那种可以 划分显存的企业级,比如PRO 6000D 84G才有意义,魔改的4090没啥用,单4090 48G,我觉得和双4090 各24G原版 差很远,当然,价格也差不少,但是我的想法是这样的,这种贵重显卡,老黄已经刀法精准了, 算力和显存都是匹配的。 贸然翻倍 没意义,为什么?因为 它的带宽1T还是多少。 我们搞AI来推理,说白了就 是每个TOKEN 计算的时候都疯狂把内部的显存遍历一遍。 4090的算力就 那样,但是突然给它个大模型,要遍历的时间 翻倍,TOKEN生成 时间 也就 翻了倍。 不过如果你需要把2-3个模型同时常驻在显存里面,这种显卡就 有用了。

    感谢回复,我主要想开大点的上下文,用来写文章,量化KV虽然能增大上下文,但带来的质量下降问题也不小,我宁愿慢点,也不想质量有下降,所以turboquant q3会比k8_0下降多少呢?问题好多啊,精力不够了……

    LLM讨论区

  • 请教大佬:Q4相比FP8,运行qwen3.6 27B,质量下降很大么?
    rich kingR rich king

    @terry 说:

    微乎其微,3-4%,我今天会发hermes视频,我感觉Q4KM和在线Deepseek V4 Flash差距也不大。有3090如果你是为了大模型,完全不必要升级。

    感谢回复🙏有数了,听说会有96G版本的4090,这个比pro6000会不会更有性价比,嘿嘿…

    LLM讨论区

  • 请教大佬:Q4相比FP8,运行qwen3.6 27B,质量下降很大么?
    rich kingR rich king

    目前用llama.cpp在4090 24G上跑的qwen3.6 27B q4_k_m,
    q8的kv,120k上下文,跑hermes感觉还行,问下大佬,如果入手4090 48G上FP8版本会有明显提升么?如果提高不大,我就在4090 24G上苟着吧,谢谢……

    LLM讨论区
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组