全站首发：RTX 3090 24G 无痛爽玩华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论）

stxpnet

让它做的三国人物关系图,耗时13分钟,略带惊艳, 是最近我测试过的里面最好的了. 这个测试必须给98分啊.

stxpnet

今天有个非常大的收获,可以说是最近10天来史诗级的进步.我的Hermes终于可以和我日常聊天了. 不要太爽. P100破显卡做副模型.哈哈.

applejuice

@stxpnet 我的显卡长期70+啊

stxpnet

@applejuice 温度？

applejuice

@stxpnet 对啊只要一跑起来就70度

566656661

突然發現up寫的是MoQ

我還打算在這個周末測測看

stxpnet

目前我已经切换到IQ4_XS了，我觉得这个才是最适合coding的量化格式。

566656661

@stxpnet

我是打算測試的同時講一講MoQ的技術, 評分可能就引用這篇文了

IQ4_XS BPW就是Q4KM附近, 模型權重大約在15gb吧？

留8～9gb給kv cache給長上下文很不錯的

stxpnet

可以多在reddit上搜索看一下,我昨晚看了,也有人在研究这个格式的kv cache了,对咱们这批老用户是个好消息.
我目前的体感是64K或者128K比较适合咱们这个卡. 开0.7的温度,和hermes聊天. 0.6的温度编程. 下面是各种kv cache 的分歧度. 及显存占用 ,二者都是越小越好. 但我还想到一层:
就是如果你的模型权重本身是Q4的话,产生Q5或Q6级别的cache,可能会拖慢速度,因为它在原始权重中找不到对应的参数.要在KV CACHE里面找,可能拖慢速度. 所以有空可以试试Q5级别的权重.

566656661

@stxpnet

我自己的認知是要不模型權重量化跟KV Cache同Bit等級(Q8對上FP8, 8 : 8 ~= 1 : 1), 要不就是容易Scale Up (Q4 對上FP8, 4.x : 8 ~= 1 : 2)

如果沒對上的話應該要額外再增加一個轉換程序, Prefill會慢，外加有額外精度損失 (不記本身Scale up/down的話), 比較直觀的話就是KLD了

c0aster

坐等大佬更新，等一波抄作业

johnnybegood

@stxpnet 平时我只要跑起来就 90度啊。。。

stxpnet

@johnnybegood 90度，nvtop显示GPU和显存频率分别多少呢？我的显卡要是到80度我就直接停了，我平时高负载从来没有超过70度过。

抡锤者

全站首发：RTX 3090 24G 无痛爽玩 华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论）

全站首发：RTX 3090 24G 无痛爽玩华为最新开源KV cache格式 (每日更新总结,希望3090卡友进来讨论）