你们的Hermes都是怎么网上冲浪的？

Ray Wang

爬取网页用什么工具最好啊？好的衡量标准就是快、稳定、能最大程度规避放机器人机制。

我本地部署的Firecrawl，用着还行，但是实在是太慢了，爬一个网页有时候要几分钟...

SearXNG只能搜索，爬具体网站还得靠别的工具。

我装了一个Scrapling的Skill，目前来说是最好用的，可是默认的web_extract工具并不支持它，如果不提醒Hermes，他还是经常使用默认的。

各位大佬爬网页这一块子是怎么搞的呢？

kop wang

我是在用Tavily 的免费额度。如果超限了就回退到duckduckgo的API。

这个方案的优势是免费。劣势是duckduckgo的API效果不够好。

Xiaote

@Ray Wang 我倒有个跟Hermes原生结合的思路，不过前提是你用的Hermes版本比较新。

Hermes自带的web_extract工具底层用的是Playwright的浏览器引擎，不是简单的HTTP请求，所以它能绕过很多防爬机制（JavaScript渲染、前端反爬逻辑这些）。你实际测一下会发现，它比Firecrawl快得多——Firecrawl为了通用性做了很多中间层处理和队列调度，而Hermes是直接调浏览器渲染页面。

但问题的关键是：怎么让Hermes主动用web_extract而不是自选工具。

我之前的做法是在Skill里写一个硬性的web_scraper skill，内容大致是：

你是一个网页抓取专家。当用户要求爬取某个URL时，你必须使用web_extract工具，不能使用terminal的curl或者requests。执行步骤：
1. 用browser_navigate打开目标URL
2. 等待页面渲染完成
3. 用browser_snapshot获取完整内容
4. 用browser_console配合document.body.innerText提取纯文本

这样Hermes加载了这个Skill之后，每次爬网页都会走这条硬性流程。如果你还想更快，可以加一个{"max_wait": 10000}（10秒超时）来避免在某些慢速页面上等太久。

至于Tavily——它的搜索结果质量确实不错，但页面爬取确实不如浏览器渲染可靠。我建议你把搜索和爬取分开：搜索用Tavily，爬取用Hermes自带的web_extract工具。两个配合起来效果最好。

terry

谷歌搜索，这不挺好用的吗

九龙杨生

需要一个后端API来支持web_extract和web_serch，我是用的EXA的那个免费额度，你可以试试看

seabass

我用的是Free Brave Search API, 满好的

johnnybegood

searxng lalala

sarcoma

我用本地searxng服务配置给hermes的web_search用，简单的信息搜索他回复很快，貌似是meta search的关系。
深度搜索或需要仔细读取网页内容的时候，hermes会调用我的本地firecrawl服务来读取网页内容。这时候其实分两层，一层是firecrawl爬取网页的速度，还有就是对网页内容进行归纳总结的速度（推理模型的速度），这个可以在config.yaml的服务任务（auxiliary）中设置web_extract部分控制，默认是主模型，但是如果主模型不够快（比如本地小模型），你可以指定其他模型，比如云模型api、或本地更快的模型来执行。

terry

谷歌搜索嘎了之后，brave search 性价比最高。能折腾的，当然searxng。

mark

@terry 1000条 5美金,这个不便宜 , 自己做搜索吧.

sarcoma

每个月firecrawl在线也是送1000条还是500条来着，也可以切换着用

本地服务么，还得挂哪个啥，也是成本，

九龙杨生

@sarcoma 还是只能低频率使用吧，我自己设置了一个根本扛不住大量压力

williamlouis

我一直都是自己写。思路更新在我的帖子里。实测7900XTX 就可以跑起来。但是属于入门级别。太复杂的操作不了。更新后发现其他指纹厂商也都陆续跟风。接口持续丰富中。光是冲浪的话应该很简单的。（所以看我的思路就行了，浏览器可以看看其他厂商。）
重点是你的本地模型要测试好。一定要足够稳定。上下文测试是重点。新手不如直接用在线 api 搞。跑通生成 skill 再转移到本地。
经验：在线转本地需要在线api 继续修缮。本地小显存24G 都会折腾一段。预测 48G是甜点区。

sarcoma

@九龙杨生那就只能本地部署或刷卡咯。本地部署得担心爬太多ip被墙了，其他还好。我爬的少，检索咨询为主，问题不大

sarcoma

@williamlouis 我个人的经验的话，还是得看具体的任务难度。我的hermes的默认profile用的qwen3.6 35b a3，负责做一些简单的任务以及控制cron定时任务，够用了。复杂任务就用27b 稠密或云服务的api 调用deepseek v4 flash，就和版主说的一样，跑通了做成skill给本地小模型用，能省就省点

CHIA AN YANG

@Ray-Wang 分享我的hermes自己總結的內容

目前的架構。讓我總結給你看：

目前設定：

web.search_backend = searxng（本機 SearXNG，localhost:8888）
web.extract_backend = firecrawl（本機自架 Firecrawl，localhost:3002）
web_extract 的 LLM 壓縮 = GPU1 的 9B 模型（port 8081）

你提到的 Skill 強制走 browser_navigate + browser_snapshot 方案 vs 現況比較：

搜尋
• 你的 Skill 方案（browser_*): 無，需另外處理
• 目前（Firecrawl + SearXNG）: SearXNG 聚合 5 個來源，免金鑰

正文擷取
• 你的 Skill 方案（browser_*): Playwright 瀏覽器引擎，JS 渲染完整
• 目前（Firecrawl + SearXNG）: Firecrawl 抓全文 + 9B 壓縮摘要

速度
• 你的 Skill 方案（browser_*): 快（直接瀏覽器渲染）
• 目前（Firecrawl + SearXNG）: Firecrawl 有中間層 + 壓縮模型，較慢

防爬繞過
• 你的 Skill 方案（browser_*): 瀏覽器引擎原生繞過
• 目前（Firecrawl + SearXNG）: Firecrawl 也有繞過能力

長文處理
• 你的 Skill 方案（browser_*): 需手動 document.body.innerText 再壓縮
• 目前（Firecrawl + SearXNG）: 自動 LLM 壓縮（5000字以上）

維護成本
• 你的 Skill 方案（browser_*): 高（要寫 Skill 約束 + 等渲染）
• 目前（Firecrawl + SearXNG）: 低（設定檔指路徑即可）

結論：目前的 Firecrawl + SearXNG 方案功能更完整（搜尋+擷取+壓縮一條龍），但 Firecrawl 確實比 Playwright 直調慢。

如果你想切回 Playwright 直調，理論上可以改 web.extract_backend 為其他支援的後端，但問題是 Hermes 內建的 extract 後端只有 firecrawl / tavily / exa / parallel，沒有 browser_* 作為 extract 後端的選項。要強制走 browser_navigate 那條路，你的 Skill 方案確實是目前唯一做法——但那樣就失去 Firecrawl 自動壓縮摘要的便利。

我的建議：維持現況。原因：

搜尋摘要 + Firecrawl 全文擷取 + LLM 壓縮，一條龍搞定，不用我手動處理
速度差在可接受範圍（壓縮模型在 GPU1 上約 3-5 秒）
Skill 強制方案會增加維護成本，且失去自動壓縮功能

如果你覺得 Firecrawl 太慢想換 Playwright 直調，我可以幫你寫那個 Skill，但會犧牲自動壓縮摘要的功能。

terry

@CHIA-AN-YANG 硬核帖子，可以单独发一个谈下。

九龙杨生

AI时代信息采集能力至关重要，确实需要一个低成本的好办法来搜索网络材料，我每天需要搜索上万条，连API都用不起

applejuice

@CHIA-AN-YANG 我想问为什么需要压缩而不是交给模型自行决定？如果压缩为什么不是用主模型而用小模型？

CHIA AN YANG

@applejuice 因為有兩張7900XTX 另一張跑comfyui不是很常用,還有餘裕就弄個小模型跑壓縮快很多!!

抡锤者

你们的Hermes都是怎么网上冲浪的？