抡锤者

kop wang

最近，Hermes 发布了官方桌面版程序。
它让 Agent 对普通用户再一次降低了使用门槛——你不需要配置复杂的 Message Gateway，不需要摆弄命令行，在一个类似 ChatGPT 的 GUI 环境中就能使用 Hermes 的一切特性。

本人也是最近高强度使用了两天桌面模式，我们一起来快速过一下Desktop版本的功能和配置技巧。

注：基于本人常用环境。本教程的所有配置均来自于windows11 + wsl2。其他环境（linux、macOS）略有区别，可以自行判断或回帖咨询。
注2：本介绍基于Hermes Agent v0.15.1，因为最近Desktop侧更新迅速，所以尽量使用最新版本。可能我这里是坑的问题，在新版本就已经不是问题了。
注3：目前官方并没有单独的“桌面版客户端”，所有的desktop安装引导，最终安装的都是整套hermes agent。所以尽量选择升级hermes来体验客户端功能，如果盲目重复安装，可能带来一些意想不到的麻烦。

为什么要用 Desktop

简单粗暴的列一个对比表格：

CLI 版	Desktop 版
终端操作，学习成本高	图形界面，开箱即用
配置靠改 YAML	配置靠点选
无法直观管理会话	可视化会话搜索 / 恢复 / 删除
技能 / 工具 / 记忆全靠命令	GUI 管理全部
不支持图形化调度	可视化 Cron 任务编辑器

再简单粗暴的上一个图片：

结果不言而喻，所有的命令、sessionID、都不需要进行记忆和查看，可以完全靠鼠标使用Hermes。

我已经正在使用 Hermes Agent，如何连接 Desktop？

你有两种姿势可以在已有的Hermes Agent中接入Desktop。

直接启动桌面版

执行：

hermes update

将hermes agent更新到最新版本。然后直接在命令行中启动：

hermes desktop

远程链接hermes gateway

这是浪费我时间最多的点，官方没有任何文章阐明到底该如何链接远程的hermes服务。以下内容均为笔者通过读hermes源码复现的，所以可能并非最佳实践，仅供参考。

本质上，hermes desktop是通过hermes api来实现和hermes主进程沟通的。所以，如果想远程链接hermes，需要注意要启动hermes的API服务，要生成固定的token，以及要启动hermes的dashboard。

1、打开hermes API Server
你需要在.hermes/.env文件中添加如下内容：

API_SERVER_ENABLED=true
API_SERVER_KEY=hermes-remote-8642
API_SERVER_HOST=0.0.0.0

其中，API_SERVER_KEY是随便的，你只需要定义就好。配置后，重启系统/wsl。

2、生成session token
在命令行中执行以下命令：

TOKEN=$(openssl rand -base64 32)
echo "HERMES_DASHBOARD_SESSION_TOKEN=$TOKEN" >> ~/.hermes/.env
chmod 600 ~/.hermes/.env
echo "$TOKEN"

执行后，会在.env文件中多出一行token，这个token也会显示在命令行的结尾，复制出来备用。

3、启动 hermes dashboard
在命令行运行：

hermes dashboard --tui --no-open --insecure --host 0.0.0.0 --port 9119

其中，--tui是为了启动聊天功能，--no-open是不需要打开网页后台，--insecure是采用session_token作为验证方式。

然后你就可以回到desktop，在设置中勾选Remote gateway，然后输入你的服务器端ip、端口（9119），session token就是刚才你生成的一串字符。

点击test remote，如果报：connected to xxx，就是成功了，可以 save and reconnect。

Desktop 的独特功能

放开了部分配置，比如Memory文件长度等。
可以调整模型的thinking长度。
可视化手动指定定时任务
可视化定制Hermes的profile和子Agent人格
免配置的语音对聊

其他的dashboard包含的可视化功能就不赘述了。

错误处理

目前桌面版还是属于比较初级的阶段，所以遇到错误的情况还是很多的。一般情况下都可以通过重启desktop来解决。以下列出几种比较棘手的错误：

1、我错误的设置了remote URL，导致hermes desktop一直connecting卡死。
等30秒，会弹出一个修复界面。点击use local gateway就可以回到本地hermes环境。然后再进行配置。

2、打开hermes desktop，强制我必须配置一个模型，而且没有deepseek等供应商。
通过命令行hermes model先配置一个模型，然后再打开hermes desktop就不会再有引导提示了。已经有人提了帖子，人为这个引导提示帮倒忙，希望官方去掉，目前还没有审核通过。

3、部分配置是灰色、空白等
说明你/你的模型之前自定义过这部分配置，导致desktop无法识别其内容。如果没有特殊需求，不要进行改动。改了就回不到你的自定义设置了。

其他问题欢迎大家回帖指正，交流。

kop wang

最近入手了一张RTX PRO 5000，上机试用了几天。于是上来发一个零散的使用记录与心得。
个人拙见，如有错误欢迎指正。

1、购买理由

在5月涨价之前，相比较7.3万的rtx pro 6000 96GB，3.6万的rtx pro 5000 48GB完全没有任何性价比。
但随着这一轮涨价，pro6000的价格飙升到了10万以上，这时候只溢价2000的pro 5000 48GB就逐渐香了起来。

在综合考虑能耗、噪音、稳定性等维度之后，最终摒弃了4090 48GB魔改版本，选择了国行的RTX PRO 5000。

2、硬件安装

特殊的涡轮卡
RTX PRO 5000是一个1.5槽散热+0.5槽输出接口的非标准显卡。接在普通的塔式机箱时，散热出口会被机箱pcie格栅挡掉一部分。同时，因为dp口靠上，所以dp口也是将将露出pcie挡板。于是，航空剪伺候，我去掉了一条pcie格栅。

DP接口也略有遮挡，但综合考虑之后我还是决定保留上面的pcie格栅，否则因为去掉太多，显卡固定螺丝位置的刚性会有所下降。

16pin注意事项
随卡附带一条双8pin转16pin转接线。需要注意的是，如果你之前的显卡用的是1分2的8pin接口，对于300W功率的RTX PRO 5000，峰值使用电流就接近单8pin的功率极限了。所以建议还是老老实实使用双8pin转16pin电源线。如果你的电源原生支持16pin的话，则更好。

btw：不同品牌电源的8pin、16pin线不要混用。不同品牌，电源侧的针脚定义是有概率不一致的。
值得吐槽的是，即便是专业卡，16pin还是老样子，插入手感模糊，紧。没有锁定感，所以一定插到底。

3、实际测试

综合芯片的算力和显存大小，qwen3.6-27B运行Q6应该是最佳的甜点区间。使用Claude Code进行实际相同的编程任务测速。

启动参数：

-m ~/.local/models/Qwen3.6-27B-Q6_K.gguf \
--mmproj ~/.local/models/mmproj-BF16.gguf \
-ngl 99 \
--flash-attn on \
--cache-type-k q8_0 \
--cache-type-v q8_0 \
-c 262144 \
--port 8080 \
--host 0.0.0.0 \
--temp 0.6 \
--top-p 0.95 \
--repeat-penalty 1.05 \
--spec-type draft-mtp \
--spec-draft-n-max 2

非MTP：prefill在1400t/s，decode速度在32t/s左右。

MTP x2：prefill在1400t/s，decode在51t/s左右。

注意：实际使用过程中，随着上下文的膨胀，速度会有所下降。以及并不是所有请求MTP都能够命中生效，总体命中概率大概60%。

4、使用体验

噪音：典型的涡轮卡目标温度调教，核心温度会锁死85度。室温在28度左右的情况下，满载压在85度的转速大概是60%。噪音是完全被CPU风扇+机箱风扇掩盖的。
在跑qwen3.6-27B-nvfp4时，曾经崩溃过驱动导致死机。这时风扇会自动锁死100%，动静还是很大的。和戴森吸尘器有一拼。

稳定性：同上，只在运行nvfp4时驱动崩溃自动重启过，目前还没排查出原因。已经用DDU全清了显卡驱动，然后重新安装了596.59，再观察观察。

5、个人思考

如果不考虑个人预算，只从单纯的AI硬件性价比来讲，目前PRO 5000和PRO 6000的价格结构才是合理的(6000大概是5000的2.5~3倍)。反过来思考，上个月7.3万的PRO 6000工作站版是真的非常有性价比（几乎可以理解为显存叠加，芯片性能白送）。

音视频是我之前不太擅长的领域，目前也在逐渐尝试，发现大场景，高动态的视频场景，48GB的显存+64GB内存还是远远不够。
但是世界上没有如果。所以只能是以优化、折腾管线、工作流来换价格了。

kop wang

本质上还是统计学结果和实际价值之间的“夹角”导致的。
对于机器学习模型而言，多=正确，在99%的场景下，这个结论都是对的。

但其实无论是商业价值还是科研价值，占最大比重的都是剩下那1%。

再加上算法层面，目前的LLM远还没到理想的统计学上限。
而工具层面，上下文信息还不能无痛完全采集。

所以就导致其功效的二八原则也非常明显。谁更有行业的领先视野，谁更能提供最有价值的上下文，谁更能高效的纠偏提点，谁就越能发挥LLM的潜力。

当然，随着算法和工具的逐渐完善，统计学和现实世界的“夹角”也会进一步缩小。就像是智驾一样，从辅助到有人到集控到最后的完全无人。总是有一个过程的。

所以统计学模型其实是非常令人绝望的一种形态。他会随着算法、数据、工具的完善，逐渐吞噬掉一个又一个的行业，一个又一个的阶层，让可能本来在前20%就能掌握80%的资源的生态，演进到前千分之一，掌握99.9%的资源的高度集中态。

kop wang

这个是典型的Agent工具和API格式不适配的情况，和什么场景无关。需要确认的是你的Agent工具是什么，其格式是否符合deepseek官网提供的两种兼容API其一。

本地LLM能正常运行，普遍是因为不管是llama.cpp还是vllm，他们的API都是考虑最大化宽松兼容的，走的是能跑就跑的设计思路，和线上API的效率优先逻辑不同。

kop wang

通读了全文，很尴尬的一点是，从模型能力的角度考虑，目前并没有150~190GB能够吊打qwen3.6-27B的开源模型。

目前而言，老的大体量模型体现的也只有知识容量的优势。Agent能力、注意力分配以及ToolCall能力在开源领域要么就是新的超大模型，要么就是qwen3.6-27B这类新的小模型。
因为中等体量模型很长时间都没有更新过了。他们的后训练和能力对齐普遍跟不上时代需要。

目前的中体量模型很像一个老教授。有知识，有认知，但是不会用手机，不会打字。

所以如果是我，我就不会推荐楼主去购入新设备。边际收益递减的太过明显。无论是GB10 x2，还是RTX PRO 6000 x2，都没有明显超越PRO 6000 x1的场景出现。

kop wang

随着锤哥视频引流，新人越来越多，感受到大家可能需要一个简单粗暴的指南来给大家在使用Agnet，以及利用Agent作为助手调试LLM性能过程中做出一些启发，于是花了一点时间写了下文，供大家交流。

因为全程手写，所以难免有拼写、时效性、技术细节方面的错误，如有失误，请随时指正，我及时修改。
如有疑问，欢迎随时回帖提问，我每天会抽出时间回答。

注：如果你已经能熟熟练使用Hermes Agent或OpenClaw，或许这篇文章就不适合你了，欢迎发帖、回帖讨论任何Agent相关内容。
注2：考虑到是“快速上手”，所以下文中有很多简单粗暴的比喻和概念拆解，只供做逻辑参考，不能100%完全符合实际技术原理与特性。如有深入交流的需求，我在有时间的前提下会开帖深入探讨。

0、使用 Hermes Agent 的前提是什么

	要求
系统	Linux / macOS / WSL2（Windows）/ Windows原生（早期测试）
基座LLM	至少一个 LLM 提供商的密钥（MiniMax、DeepSeek、qwen 等 20+ 种）或者自建LLM
安装教程（官网）	https://hermes-agent.nousresearch.com/docs/zh-Hans/getting-started/installation

安装后运行 hermes setup 走完初始化向导即可开始。

1、为何使用 Hermes Agent，和 Chat 聊天窗口的区别

普通 Chat网页（类似DeepSeek 网页版）是对话工具：你说一句它回一句，会话无记忆，用完即焚，无法操作你的电脑。

Hermes Agent 你可以理解为是你的助手、秘书，他和你一样，有使用当前电脑的一切能力：

	ChatBot	Hermes Agent
会话持久性	无（除了chatGPT）	跨会话记忆
工具执行	无	运行命令、读写文件、操控浏览器、发消息
定时任务	无	有定时执行机制
学习进化	无	通过 skill 积累经验，重复任务执行更快，更省token
多平台	无	Telegram / Discord / Slack / CLI 等 10+ 平台
模型自由	被平台限制	随时切换任意模型/提供商

2、如何高效地和 Hermes Agent 沟通

2.1 正确看待 Hermes Agent 的角色

就像上面所说的，既不能把他当作全知全能的神，也不能把他当作没有判断力的应届实习生。

核心原则就是：描述你的前提，告诉他你要什么结果，如何验收这个结果的正确性。不要去关心具体怎么操作。Hermes 会自动选工具、定步骤。

不要犯蒋校长的错误，又菜又爱玩微操。
也不要像你的女朋友对待你一样，什么事儿都要Hermes猜。LLM的逻辑转换能力是受到神经网络层级限制的，你越让他猜，他最终分配在执行和统计上的智商就越低。

2.2 session_search —— 让 Hermes 记得你们聊过什么

Hermes 具备跨会话检索能力。当你在新会话中提到之前讨论过的话题，Hermes 会自动搜索历史会话找回上下文。

所以不需要每次重复背景信息。直接说

"昨天我们讨论部署qwen3.6-27B，我试了你推荐的方案，结果是……如何让prefill速度再快一点？"，

Hermes 自己能找到那次对话。

2.3 Skill —— 让 Hermes 记住怎么做最好

Skill 的本质就是一段文字叙述，记录着做某件事的技巧和流程。
如果想对你的某件事创建skill很简单。只需要两步：
1——你让你的hermes做一遍，和他一起配合做成功。
2——告诉他：

“把这个流程总结成skill。以后再做XXX就按照这个做”

2.4 抹平信息差 —— Hermes 看不到你的屏幕、猜不到你的心思。

这是最容易被忽略的一点。Hermes 通过命令行与系统交互，但看不到你的屏幕、你的浏览器标签页、你的思维过程。

所以，说话请说全：

"我现在在做XXX，报了一个YYY的错误，错误信息是：abcde，帮我修复一下。"

如果复制粘贴做不到，可以截图发给他。Hermes Agent有视觉能力，当然前提是你的基座LLM得是多模态模型。或者你按照上文中skill的技巧，告诉他需要视觉能力时，走某个另外一个模型。

另外，如果你只是想让他给你提示和规划，不想让他上手做，请明确说明。
不要像你的女朋友一样：“你没看见这里很脏吗？”，“我让你用扫把扫了吗？不会用拖把吗？”
要向你一样：“媳妇儿，帮我看看我手机是不是在客厅？在就行了，不用拿过来”

3、Hermes Agent 都能为我完成什么

3.1 定时任务（Cron）

Hermes 内置作业调度器，支持自然语言时间描述。

“每天早上9点取一下24小时之内的hacker news 热帖，翻译标题并生成一句话总结，发到我discord上。”
“每过一个小时，监控一下我目前持仓的A股股票的技术参数，从短线的视角来看，如果出现MA5斜率为负（balabala你自己喜欢的指标特征），就给我发discord通知我，连续发三遍”

3.2 本机电脑操作

Hermes 可以直接在终端执行命令，包括但不限于：

类别	示例
系统管理	检查磁盘/内存/进程，安装包，管理服务
代码操作	Git 提交/推送/合并，代码格式化，类型检查
文件管理	读写/搜索/替换/重命名文件
网络工具	curl API 调用，SSH 远程连接，端口检查
Python 执行	运行脚本、数据分析、批量处理

安全机制：危险命令（rm -rf、sudo 等）会弹确认提示，可通过 --yolo 全局跳过。
所以，你可以利用Hermes来帮你测试并调试本地LLM运行参数、环境,甚至是进行模型的训练和微调。

3.3 浏览器页面操作

Hermes 可以操控内置的浏览器，完成需要页面交互的操作：

场景	说明
网页抓取	加载动态渲染页面，提取结构化内容
表单填写	登录、提交表单、领取福利
截图验证	截取页面截图 + vision 分析（例如验证码识别）
自动化操作	点击、滚动、键盘输入，模拟真实用户行为

4、思考题

如果我希望Hermes Agent来帮我炒股，股票代码000001，价格超过5元卖出，价格低于4元买入。你会怎么PUA他？

附录：常用命令速查

# 启动会话
hermes                     # 交互模式
hermes --continue          # 继续上次会话

# 配置
hermes setup               # 初始化向导
hermes model               # 切换模型/提供商
hermes doctor              # 健康检查

# 技能管理
hermes skills browse       # 浏览技能市场
hermes skills install ID   # 安装技能
hermes skills list         # 查看已安装

# 工具管理
hermes tools list          # 查看可用工具集

# 定时任务
hermes cron list           # 查看所有任务

# 会话
hermes sessions list       # 查看历史会话
/reset 或者 /new                    # 新会话（工具变更后需重置）

# 查看完整文档
https://hermes-agent.nousresearch.com/docs/

kop wang

为了给大家营造一个干净、高效的技术交流环境，即日起，请勿在技术板块发布或回复任何 SPAM 内容（包括但不限于广告推广、引流拉新、钓鱼链接等）。这类信息会严重干扰正常讨论，降低内容质量，也会影响优质帖子被搜索引擎收录和推荐。

同时，我们非常鼓励大家在技术板块发帖、回帖时，多分享一些有价值的信息。这些内容不需要是严谨的技术结论，你的个人理解、实战经历、踩坑体会，对别人来说可能都是很有帮助的参考。当大家的点滴分享汇聚起来，论坛自然就能成为获取一手资讯、高效交流的好地方，优质内容也会更容易被搜索到，吸引更多同好加入。

随着论坛流量和活跃度的提升，我会提议开设专门的推广 / 商务板块，供有需求的朋友合规地发布宣传信息。在专属板块上线之前，还请大家理解并配合，让技术板块保持专业和纯净。

感谢每一位用心交流的朋友。

kop wang

最近刚接触多媒体生成这块，所以知识体系还不足以能够分享整个工作流，所以只能是发一些我的观察和经验，欢迎交流指教。

1、生成视频尽量使用模型原生训练的帧率和总帧数。对于wan2.2的I2V而言，就是81帧，fps16。总帧数、fps加大会导致一些问题，最明显的就是质量劣化，或者动作漂移。本质上就是模型其实处理不了那么多的总帧数。

2、官方推荐的参数基本上就是最理想的参数，比如在使用加速LoRA：LightX2V时，总步数是4，CFG是1，sigma接近0.9，CRF低于18

3、如果需要最终输出的视频参数改动（分辨率、帧率、总长度）尽量使用对视频后期处理思路来改动，比如利用 RIFE来插帧，从而提升帧率。利用Wan2.2的FLF2V（首尾帧生成）来实现多段5秒的视频无缝组合，从而延长时间等。

大概就酱。

kop wang

如题。
huggingface的对应文章： https://huggingface.co/blog/security-incident-july-2026

然后抱脸试图通过GPT5.6修复漏洞，结果因为GPT5.6的系统审查严格，很多有价值的上下文无法上传（比如攻击的方法、日志、痕迹等。估计是被GPT的防火墙识别成了攻击，而不是上下文信息）而无法修复，最终无奈启用自建GLM5.2解决了问题。

即便是OpenAI这种头部巨头，也一样搞不好模型走捷径的问题。
Agent指令遵循任重而道远。

kop wang

再次感谢锤哥的这个平台。

纯属雕虫小技，多向各位大神学习。

kop wang

基于上帖：RTX PRO 5000碎碎念 @566656661 老哥的鞭策，基本上遍历了市面上所有比较火的qwen3.6-27B模型。最终找到了一个相对性价比最高的版本：Qwen3.6-27B-NVFP4-MTP-GGUF

驱动版本：
596.59
CUDA 13.0

优势：

多模态，nvfp4，llama-cpp，MTP支持，MTP-nvfp4量化（目前唯一）

劣势：

不是非拒绝模型

启动参数如下：

~/projects/llama.cpp/build/bin/llama-server \
  -m ~/.local/models/Qwen3.6-27B-NVFP4-MTP-GGUF.gguf \
  --mmproj ~/.local/models/Qwen3.6-27B-mmproj-BF16.gguf \
  -ngl 99 \
  --flash-attn on \
  --cache-type-k q8_0 \
  --cache-type-v q8_0 \
  -c 262144 \
  --port 8081 \
  --host 0.0.0.0 \
  --temp 0.6 \
  --top-p 0.95 \
  --top-k 40 \
  --repeat-penalty 1.05 \
  --repeat-last-n 512 \
  --spec-type draft-mtp \
  --spec-draft-n-max 2

最终实战结果：
在Hermes Agent中实战调用，上下文总长256K，已占用100K的前提下，跑出了prefill：1400t/s decode：60t/s 的成绩，至少在hermes调用上，LLM的逻辑推理已经不成瓶颈。且在我自用的两天中，并没有出现无限循环的情况。

推荐给大家。

kop wang

首先，先更正一个点，就是对于Linux而言，GUI和系统桌面不是绑定死的。换句话说，你可以理解为Linux的图形界面是零散的。你可以在没有系统桌面的前提下，全屏运行一个游戏。

然后就是要看你的ubuntu的设备是一个什么定位。
如果只是一个粗暴的模型API提供者，那系统桌面就是纯累赘。
如果你的设备是一个AI服务的Server，系统桌面就是可选项，毕竟有远程可视化的方案。

如果是一个AI服务的All in One主机，你需要在本机操作多媒体、文件内容，甚至需要进行编程、文字编辑、浏览网页等复杂的交互操作。那么桌面图形界面就有其意义。最起码多一个鼠标操作的维度，你就能节省大量的对于文件、多窗口等的命令行输入。

举个特别简单的例子，你在桌面，你只需要双击程序A，再双击程序B，你就完成了程序A、B的后台运行，且可以随意切换。
但是命令行你付出的成本就大很多。

kop wang

@怪物楼主的错误可以理解，很多人人为模型的“体量”=“能力”。但实际上并不是如此。

体量只决定静态知识储备和统计学趋势（类似于一个人没手机，无工具情况下，自己的脑子里的知识总量和思维判断）。

能力就更为复杂一些。举个简单粗暴的例子，一个小学生+google，知识体量也一定赢过大学生自身脑容量，但是实际场景的问题解决，则不见得谁更强。

所以认知模型能力更相对客观的是看benchmark，也就是跑分。
我比较常用参考的跑分网站：https://benchlm.ai/llm-agent-benchmarks

我最推荐的Qwen3.6-27B非拒绝模型是https://huggingface.co/HauhauCS/Qwen3.6-27B-Uncensored-HauhauCS-Aggressive

仅供参考。

kop wang

网上有一些既有的研究材料，可以互相参考下：
关于kv量化的KL散度提升：

对应的信源：https://www.reddit.com/r/LocalLLaMA/comments/1tza4ji/qwen_36_27b_kv_cache_quant_benchmarks_75_pairs/?tl=zh-hans

对应的主文章：
https://anbeeld.com/articles/kv-cache-quantization-benchmarks-for-long-context

kop wang

如题，如需安装指定版本，可以执行命令：

opencode upgrade 1.17.09

如果需要opencode禁止自动更新，需要在：

LINUX:~/.config/opencode/opencode.json
WINDOWS: C:\Users\你的用户名\.config\opencode

配置以下内容：

 "autoupdate": false

需要注意json格式的完整性，望知悉。

kop wang

@九龙杨生这个文档不光是程序本身的文档信息，还有一些其他角度的描述，比如需求角度，整个工作流程，你是如何使用这个程序的，是如何给这个程序提供输入的等等。这些都隐藏在你每次和hermes聊天的session中。

以上这些其实比开发文档本身更重要，毕竟Code ≈ 开发文档。但需求端（对应需求文档）、使用端（对应产品设计文档）的信息其实是缺失的。

之前锤哥的视频里也分享过类似“用Hermes编程效果也不错”的结论。

我个人的理解，其实就是Hermes Agent因为对话场景，对用户的需求和产品定义了解的更充分，也就是信息量更大所造成的正向增益。上下文信息的充沛增益掩盖了Hermes Agent对于Coding工具本身能力的差距。

kop wang

有几个因素：1、因为hermes有很多的系统提示词以及提示词加工，相当于是要一口气输入大概10k到20k token的内容。

2、hermes是附带工具调用的，所以你看到他回复，是hermes已经和你的llm私下交流过n次之后的结果。

因此，对于agent工具而言，llm的性能不光要看decode速度，从某种意义上讲，prefill速度更为重要。

kop wang

不划算。
1、7900XTX，24GB显存，没法跑性价比最高的qwen3.6-27B-4bit量化+满上下文。你的这个需求满上下文还是比较重要的。
2、虽然qwen3.6-27B和v4-flash的能力接近，但是7900xtx部署的性能天差地别。
3、自部署除了硬件以外，还有自建环境、折腾参数、版本兼容等软成本。看你的历史发帖，应该也属于技术苦手。这块的时间成本也要考虑。

我的理解，如果只聊性价比，而不图研究、学习的价值的话，自部署只在图、音、视频的生成，以及数据隐私、非审查模型这块有比较高的不可替代性。

kop wang

不需要一周了，跑了几个功能修复的任务，可以盖棺定论了。Github Copilot这个Coding Agent的体验远差于Claude Code。

1、浪费上下文。Claude Code 20k上下文解决的问题，Copilot要跑到200k。平均费用高3~5倍。
2、性能羸弱。应该是缺乏一些关键的Coding skill逻辑，导致其能力过于依赖LLM本身的逻辑与判断，无法最大化的发挥LLM的推理价值。
3、上下文索引能力差。一个GET请求超限的问题，爬了200k上下文，都没找到关键代码。ClaudeCode 5k的上下文就解决问题了……

kop wang

@terry 咋可能云，已经用上一天了

抡锤者

kop wang

帖子