抡锤者

vosrock

我觉得能跑就行了，反正也只是跑轻量的脏活或者简单工作，也没必要投入太多资金。

vosrock

这是幻觉，无法避免的，这个时候你可以让他将当前任务拆分，然后顺序执行，搞定

vosrock

就算是V4 PRO也贵不了多少，为啥要用其他呢

vosrock

让他查资料的话，在线的会猜答案，HERMES相对老实的真的去查

vosrock

性价比的话，目前最高还是308020G，应该没有之一了，不过得需要点技术和勇气

vosrock

又多了一个性价比之选，显存大还是硬道理

vosrock

这是新的配置，之前的配置上下文到了100多K之后，KV缓存会耗费大量时间做交换，用这个配置就不会了，后期的速度会快很多，能明显感觉到
这个配置初始大概有60多T/S PREFILL大约1200T/S，上下文快满了的时候大概40T/S，PREFILL大约500T/S，实际上和在线API的感觉没什么很大区别了

vosrock

启用集成显卡很有帮助，可以设置168960KV
.\hermeswork\llama.cpp\build\bin\Release\llama-server.exe -m D:\hermeswork\models\Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved.i1-IQ4_XS.gguf `
 -c 168960`
 -ngl 99 `
 -t 24 `
 -tb 24 `
 -b 2048 `
 -ub 256 `
 -np 1 `
 --temp 0.15 `
 --top-p 0.9 `
 --top-k 40 `
 --min-p 0.05 `
 --presence-penalty 1.0 `
 --repeat-penalty 1.05 `
 --flash-attn on `
 -ctk q4_0 `
 -ctv q4_0 `
 --reasoning off `
 --kv-offload `
 --spec-type draft-mtp `
 --spec-draft-n-max 2 `
 --checkpoint-every-n-tokens 16384 `
 --ctx-checkpoints 64 `
 --cache-reuse 4096 `
 --no-context-shift `
 --cache-ram 24576 `
 --host 0.0.0.0 `
 --port 11434 `
 --mmap `
 --mlock `

vosrock

@applejuice 现在肯定没有，会有的

vosrock

@最是沉醉我为KV设置了内存缓存，这个我还不知道有没有帮助，反正我内存大，没有负面影响，
其实不需要担心，一旦模型OFFLOAD，速度立马就会变慢，以我的急性子是不可能感受不到的

vosrock

没事，也就是这两年顶一下，很快就能用上几千块的A100了

vosrock

这个问题让HERMES自己改设置就可以了

vosrock

反正后面都是要全力工作的了，待机功耗大无所谓拉

vosrock

不一定是错误结果，反正都是概率预测工具嘛，预测到了另外一条路线去了，不过显卡温度太高确实不好，我这卡到手半年了，估计一直78°这么玩下去很快完蛋，还是放弃静音，将风扇转速拉满吧

vosrock

打错字了，是外出的时候把空调关掉了

vosrock

昨天HERMES跑着任务，我外出时候把空调管理，回来发现电脑重启了，再跑任务好像有点花品的样子，然后我就空调开上，用小飞机将显卡风扇拉满，显卡温度重78°降到68°，有个神奇的事情发生了，卧槽，感觉HERMES的工作质量变高了，有哥们有同样的发现或者感受吗？显卡的冷热，大模型的能力也会有变化？哈哈，吹个水，虽然我真的有这种感觉

vosrock

将温度降低，一定程度可以抵御KV量化的影响

vosrock

我不是说用核显来进行AI，而是让他处理桌面，UI这些，刚才实测了，确实可以节省至少600M显存，没有想象的多，不过也挺好的

vosrock

@johnnybegood 你别说，2G显存很关键的，这么说的话，我得启用我的CPU显卡了，卧槽，如果多了2G显存的话，我不敢想我的显卡有多强啊，哈哈

vosrock

格式可以完整保留吗？这个很重要啊，其实收费的那些，图文混排做得也不是很好

抡锤者

vosrock

帖子