抡锤者

demo

@九龙杨生好的，我断断续续试了几天了，让hermes帮我修改了不下10遍，还是解决不了失真和色调跳跃的问题，期待抄你的作业，哈哈！

demo

@abaalei 好的，我找一下，谢谢！

demo

@abaalei 请问大神是怎样把片段的无痕拼接的呢？我用刘悦大神的LTX2.3数字人无限工作流V2是可以跑出单个视频了，但是分割成15S/段，会出现色调会变化和越到后面越失真的问题。让hermes修改了N次，有一点点改善，但还是解决不了

demo

@keforce 这是刘悦大神的YTB账号，里面有链接的，拿完不要忘了支持一下大神
https://www.youtube.com/@v3ucn

demo

@AGI 请问兄弟按照这个参数，吐字速度是多少呢？我按照你的参数设置是25左右

demo

留名抄作业，十分感谢！

demo

@mei-li 说:

@demo 现在好像没有780的了，
是的，600也不错了，减后5399，谢了兄弟

demo

@mei-li 是的兄弟，登了一个很久没用的号，有600的券

demo

我也是4080S32G用户，但我是小白，在hermes中让deepseek flash调试了很久，其中不断把启动参数发给豆包和gemini三方博弈，还是突破不了128K上下文。兄弟你测试的60tokens/s的峰值速度是单线程还是并发的数据呢？
我也列一下我的启动参数和测试数据
#!/bin/bash
# 启动 vLLM 服务 - Qwen3.6-27B GPTQ Int4 @ 128K context + MTP + Prefix Caching
# 端口 8000

 source ~/vllm-workspace/venv/bin/activate
 
 MODEL_DIR=/home/demo/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-GPTQ-Int4
 CHAT_TEMPLATE=~/vllm-workspace/buun_chat_template.jinja
 
 export VLLM_USE_FLASHINFER_SAMPLER=1
 export CUDA_HOME=/usr/local/cuda-13.0
 export PATH=$CUDA_HOME/bin:$PATH
 export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
 
 exec vllm serve "$MODEL_DIR" \
     --port 8000 \
     --host 127.0.0.1 \
     --max-model-len 131072 \
     --dtype auto \
     --gpu-memory-utilization 0.93 \
     --kv-cache-dtype fp8 \
     --compilation-config '{"cudagraph_capture_sizes": [1, 2, 4], "cudagraph_mode": "PIECEWISE"}' \
     --enable-chunked-prefill \
     --max-num-batched-tokens 3072 \
     --chat-template "$CHAT_TEMPLATE" \
     --trust-remote-code \
     --enable-auto-tool-choice \
     --tool-call-parser hermes \
     --limit-mm-per-prompt '{"image":1}' \
     --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}' \
     --enable-prefix-caching \
     --served-model-name Qwen3.6-27B-GPTQ-Int4

让deepseek做的压力测试脚本数据：
压测结果：Qwen3.6-27B-GPTQ-Int4

    单线程
    | 轮次 | tokens | 耗时   | tok/s |
    |------|--------|--------|-------|
    | #1   | 1024   | 22.65s | 45.2  |
    | #2   | 1024   | 23.26s | 44.0  |
    | #3   | 1024   | 23.10s | 44.3  |
    | 平均 | 1024   | 23.00s | 44.5  |
    
    并发压测
    | 并发数 | 墙钟耗时 | 总产出   | 吞吐量(tok/s) | 单请求平均 |
    |--------|----------|----------|---------------|------------|
    | 2路    | 37.56s   | 2048 tok | 54.5          | 27.5 tok/s |
    | 4路    | 49.74s   | 4096 tok | 82.4          | 20.9 tok/s |
    | 8路    | 41.86s   | 8192 tok | 195.7 🚀      | 25.1 tok/s |
    
    关键结论
    
    1. 单线程 44.5 tok/s — 稳定，MTP + FlashInfer 效果不错
    2. 并发吞吐线性增长 — 2路 54.5 → 4路 82.4 → 8路 195.7 tok/s
    3. 8路反而比4路快 — 41.86s vs 49.74s 🤔 可能因为 batch 大了，MTP speculative decoding 的 acceptance rate 更高，vLLM 调度器在更大 batch 下更高效
    4. 单请求延迟 — 并发下每请求约 20-27 tok/s，比单线程慢一半，但总吞吐翻了 4 倍

demo

貌似现在最大只有560的券了，而且我的号还领不到

demo

你在论坛搜一下特哥的测试脚本，能辅助你判断

demo

@Michael-Zhou 哈，我昨天也是安装了这位大佬的另外一个模型https://huggingface.co/llmfan46/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-GPTQ-Int4，暂时使用也是稳定，速度还不错。我4080S32G。
简单爆测结果：

Qwen3.6-27B-GPTQ-Int4 @ RTX 4080 SUPER

| 指标                   | 数值                                         |
|------------------------|----------------------------------------------|
| 吐字速度               | ~56 tok/s                                    |
| 包含 thinking 推理     | 544 tokens / 9.6s                            |
| 去 thinking 纯有效输出 | 看你 prompt 带不带 [SYSTEM: No reasoning]    |

demo

Zhou，请教一下，HauhauCS 27B Aggressive llama.cpp 是怎样配置视觉参数的呢？我问了gemini和豆包，都是不带视觉的。但是询问他们俩关于比较新的第三方模型，他们总是会出现幻觉

demo

@王一民说:

@demo 针对你的这个需求，我个人有几个思路。你可以参考看看：
1、用claude code或者openCode这种Coding场景专用的工具来做。
2、你的这个需求，有部分功能是纯html文件做不到的。相当于你的提示词“设计一个网页”，“你的网页根本没有xxx”有很严重的反向作用。
3、对于qwen-27B这种级别的模型，他的plan能力其实还是很弱的。所以对于localLLM，我的建议还是只做执行。就是通过公网API跑通流程和设计，包括skill。qwen3.6-27B只负责驱动hermes去调用即可。

所以综上，针对于你的这个需求，我个人的执行方式是，通过claude code，使用deepseek-v4-pro模型配合max的effort（思考长度），进行系统设计工作，然后使用deepseek-v4-flash，进行plan的执行。以及后续的程序部署。最终通知hermes告知其有这么一个网页+后端API，供其使用。

谢王哥了！我要消化消化你说的这段内容

demo

@williamlouis 说:

@demo 我想说的是。你不需要搞那个什么团队分工。没有任何意义。你被某博主洗脑了？

洗脑还算不上，只是我刚开始接触AI，没有对此类信息的判断能力

demo

@王一民说:

所谓的“团队”本质上就是子Agent。这个应用思路不是特别符合Hermes Agent的核心架构立意。

如果想最大化的使用子Agent、Agent Team、蜂群这种概念，应该用OpenClaw。

如果让我主观来判断你所谓的“被骗”，有几点值得优化。
1、你得提出一些可量化的需求。尽量少让他去“判断、分析”。而是让他产出可量化的数据。
2、你的27B量化的太狠。量化太狠精度损失的过于明显。
3、有可能你提出的问题太泛泛了，导致128K的上下文不够，太早触发了上下文压缩，导致信息损失。

王哥，现在我举个实际的例子：我发送指令“设计一个网页，主要功能是检测轮转动态代理端口指向的国家的IP池量有多大;根据每个国家IP数量的不同，列出排名。”Hermes给我一顿思考后完成的网页功能只有检测轮转动态代理端口的连通性和延迟多少，其他功能需求全忘了做。然后我再提示他“你的网页根本没有自动统计每个国家的唯一 IP 数量，添加按测试整体数量降序排名功能”这条命令开始，他就胡编乱造，代理检测功能都连不通了。
这样的命令对于我现在的模型来说，太泛了吗？

demo

@williamlouis 说:

有幻觉和角色团队分工协作有关系吗？
这是个大众问题。
在确定 Hermes 不能换的情况下。

量化精度损失被 Agent 环节放大
INT4 对 27B 模型的推理能力已经有明显压制，尤其是长上下文（128K）下，KV Cache 压缩后模型对"自己是否已调用工具""工具返回了什么"的记忆会模糊。Hermes 的单任务链没有中间校验层，模型记错一步就会顺着编下去。

Hermes 的单任务设计缺乏"自我纠错"
单任务意味着一次规划、一次执行、一次总结。如果工具调用失败或返回空，模型不会自动重试或质疑结果，而是倾向于用训练数据里的"常见答案"脑补填充。你不熟悉的领域正好无法识别这种脑补。

工具描述和系统提示词大概率是短板
本地部署时，Hermes 默认的系统提示词（system prompt）通常没有针对 Qwen3.6 做适配。Qwen 系列的工具调用格式（如 <tool_call>）和 Hermes 的模板如果不完全匹配，模型在"该调用工具"和"该直接回答"的边界上会犹豫，最终选择直接胡说。

没有外部验证闭环
你被骗的核心原因是：模型输出无法自动交叉验证。生产级 Agent 通常有"执行-观察-反思"循环（ReAct / Reflexion），Hermes 的单任务模式砍掉了观察反思环节。
自己打字太费劲。中间用AI生成好了给你。

对的，就是想补充创建观察-反思等类似这些角色，可以让他们一个任务多角色参与，在Hermes内部形成一个“团队”工作流，减小出现幻觉的概率。

demo

刚在本地跑通Qwen3.6-27B-heretic-int4 模型，运行在X99洋垃圾+RTX 4080 SUPER 32G上。128K 上下文窗口，INT4 量化版本。由于是刚接触agent，调试了几天，觉得单任务的Hermes经常出现幻觉，特别是对于我自己也不了解的领域，经常被Hermes骗，也不知道是不是自己没调试好的原因。
在B站寻找解决幻觉问题的过程，发现多角色团队分工协作的优化思路不错，但是B站上很多都是概念性的，想深入了解基本都是卖课的私域，而且大部分都是小号引流，觉得信不过。特此向各位大佬请教相关实操方法。
（想着帖子格式好看点，内容开头打了4个空格，结果自动进入了代码框模式，给几位浏览了帖子的大佬造成不好的体验，不好意思哈）