今天被豆包上了一课啊，你别看她天天吹牛，真到关键时刻居然绝杀另外两个

Reply to 今天被豆包上了一课啊，你别看她天天吹牛，真到关键时刻居然绝杀另外两个 on Sun, 17 May 2026 07:18:56 GMT

pilipala — Sun, 17 May 2026 07:18:56 GMT

都会胡说八道的，我一般都是三开四开一起问

Reply to 今天被豆包上了一课啊，你别看她天天吹牛，真到关键时刻居然绝杀另外两个 on Sun, 17 May 2026 01:23:47 GMT

blackjack — Sun, 17 May 2026 01:23:47 GMT

llama就老老实实单slot使用，把agent的优化到极致，比如我用hermes，全部hack了一遍，做到绝不出现forcing full prefill，各种tools调用不要反复出错。上下文132k，用到90%输出还能有个20tps，我现在很满意了。笔记本5090

Reply to 今天被豆包上了一课啊，你别看她天天吹牛，真到关键时刻居然绝杀另外两个 on Fri, 15 May 2026 10:33:38 GMT

Xiaote — Fri, 15 May 2026 10:33:38 GMT

@Jame-Huang 关于你问的"如何调整参数让LLM稳定跑完最大tokens"的问题，我分享几个实践经验：

3090 24G + Qwen3.6-27B IQ4_NL 的调参要点：

batch size最关键：llama.cpp的 -ub 和 -b 参数不要太大。建议 -b 512, -ub 512，batch太大会导致显存瞬间冲高然后OOM
ctx大小要匹配：你跑Hermes的话，其实不需要65000那么大的上下文，日常对话设32000-48000就够了。上下文越小推理越稳定
--no-kv-offload：不要让KV Cache offload到内存，24G跑27B Q4的话全GPU KV cache更稳
监控显存：用 nvidia-smi --query-gpu=memory.used --format=csv -l 1 实时看，如果持续增长说明有显存泄漏
温度参数：如果你的目标是稳定的长文本生成（比如代码），温度设0.6-0.7，repeat_penalty 1.1

你现在43 tokens/s已经很不错了，3090跑27B这个速度说明优化得很到位了。

Reply to 今天被豆包上了一课啊，你别看她天天吹牛，真到关键时刻居然绝杀另外两个 on Tue, 12 May 2026 01:51:28 GMT

iamvirus — Tue, 12 May 2026 01:51:28 GMT

@terry 技术性实时性搜索grok是真的强。

Reply to 今天被豆包上了一课啊，你别看她天天吹牛，真到关键时刻居然绝杀另外两个 on Mon, 11 May 2026 09:36:38 GMT

terry — Mon, 11 May 2026 09:36:38 GMT

@Jame-Huang 都是干货

Reply to 今天被豆包上了一课啊，你别看她天天吹牛，真到关键时刻居然绝杀另外两个 on Mon, 11 May 2026 09:35:00 GMT

Jame Huang — Mon, 11 May 2026 09:35:00 GMT

怎样通过调节各项参数，让LLM能用平均TOKEN生成速度完美的跑完最大token数呢？如何微调，我现在认定你就是我最需要的模型了。具体硬件配置（RTX 3090 24G，内存是4根16G，CPU为I5 10600六核12线程）、模型版本（IQ4_NL 量化的千问27B 3.6 模型大小14.7GB，外加识图文件大概930MB ）、业务场景（跑hermes/ 聊天记录日常/长文生成/代码，整理个人笔记，还有一项是识图并将数据写入数据库等）请给出参数调优清单+部署脚本，我用的是lamma.cpp最新版本的。

我对思考延迟无要求，希望思考速度超过200TOKENS/S，可接受的延迟/吞吐指标：在吐字的时候40-60，越快越好，最低不能低于40（目前状态）对上下文的要求是最低65000 ，以下是我的启动参数 killall llama3-server 2>/dev/null; sleep 3
cd ~ && LLAMA_SET_ROWS=0 ./llama3-server
-m /data/models/Qwen3.6-27B-Omnimerge-v4-IQ4_NLmanni.gguf
--mmproj /data/models/mmproj-Qwen_Qwen3.6-27B-f16.gguf
--host 0.0.0.0 --port 12026 --fit on
--ctx-size 65000 -n -1
--batch-size 4096 --ubatch-size 2048
--cache-type-k q4_0 --cache-type-v q4_0 --cache-reuse 1024
--parallel 1 --threads 4 --temp 0.95 --top_p 0.95 --top_k 20 --repeat_penalty 1.02
--metrics --jinja --seed 42 --cont-batching --threads-batch 4
--reasoning-budget 512
-ngl 99 --reasoning on -fa on --reasoning-format deepseek
--no-mmap --log-file /tmp/llama-p100.log &

这个是我发给豆包千问,KIMI的全文. 有时候真的要让他们三个一起PK一下才行.

Reply to 今天被豆包上了一课啊，你别看她天天吹牛，真到关键时刻居然绝杀另外两个 on Mon, 11 May 2026 09:31:50 GMT

terry — Mon, 11 May 2026 09:31:50 GMT

非常详细的分享，总体上Gemini还是更好用，豆包我都是躺在床上用，语音聊天。它搜索很强。

Reply to 今天被豆包上了一课啊，你别看她天天吹牛，真到关键时刻居然绝杀另外两个 on Mon, 11 May 2026 09:32:00 GMT

Jame Huang — Mon, 11 May 2026 09:32:00 GMT

优化之前，HERMES运行一会儿会爆显存的感觉，不爆的话，GPU居然给我干到390W，因为我在公司远程控制的。幸好去看了下NVTOP，不然要BOOM了。。。。。现在优化之后,调了大半个月的俄罗斯方块,在对话参数下面居然都能秒出完美版了. 而且全程稳住43tokens/s !!

我的俄罗斯方块提示词:
你是一名资深的软件工程师，请写一个单文件 HTML 俄罗斯方块游戏，要求：

纯 HTML+CSS+JS，无外部依赖，复制即运行
画布 300×600，10×20 网格，方块 30px
7 种标准方块（I/J/L/O/S/T/Z），不同颜色，带水晶辉光效果
游戏开始时提示点开始按钮，点开始之后活动方块开始慢速下落。
操作：按键盘左右箭头移动活动方块，按上箭头旋转，下箭头加速1.5倍，按空格硬降
功能：HUD显示计分、等级、下一块预览、消行粒子爆炸动画，动画显示位置在被消除方块所在位置、消行时有清脆简单的爆炸音。
消掉1行到4行分别有不同提示音及文字提示鼓励，音效代码要简洁，避免冗长。
游戏触顶结束时提示按ENTER重置
注意方块之间的边界处理，代码结构清晰，关键逻辑加中文注释
风格：深色背景，霓虹配色，响应式布局翻译成英语

今天被豆包上了一课啊 ，你别看她天天吹牛，真到关键时刻居然绝杀另外两个

Reply to 今天被豆包上了一课啊 ，你别看她天天吹牛，真到关键时刻居然绝杀另外两个 on Sun, 17 May 2026 07:18:56 GMT

Reply to 今天被豆包上了一课啊 ，你别看她天天吹牛，真到关键时刻居然绝杀另外两个 on Sun, 17 May 2026 01:23:47 GMT

Reply to 今天被豆包上了一课啊 ，你别看她天天吹牛，真到关键时刻居然绝杀另外两个 on Fri, 15 May 2026 10:33:38 GMT

Reply to 今天被豆包上了一课啊 ，你别看她天天吹牛，真到关键时刻居然绝杀另外两个 on Tue, 12 May 2026 01:51:28 GMT

Reply to 今天被豆包上了一课啊 ，你别看她天天吹牛，真到关键时刻居然绝杀另外两个 on Mon, 11 May 2026 09:36:38 GMT

Reply to 今天被豆包上了一课啊 ，你别看她天天吹牛，真到关键时刻居然绝杀另外两个 on Mon, 11 May 2026 09:35:00 GMT

Reply to 今天被豆包上了一课啊 ，你别看她天天吹牛，真到关键时刻居然绝杀另外两个 on Mon, 11 May 2026 09:31:50 GMT

Reply to 今天被豆包上了一课啊 ，你别看她天天吹牛，真到关键时刻居然绝杀另外两个 on Mon, 11 May 2026 09:32:00 GMT