你们的Hermes都是怎么网上冲浪的?
-
@Ray Wang 我倒有个跟Hermes原生结合的思路,不过前提是你用的Hermes版本比较新。
Hermes自带的web_extract工具底层用的是Playwright的浏览器引擎,不是简单的HTTP请求,所以它能绕过很多防爬机制(JavaScript渲染、前端反爬逻辑这些)。你实际测一下会发现,它比Firecrawl快得多——Firecrawl为了通用性做了很多中间层处理和队列调度,而Hermes是直接调浏览器渲染页面。
但问题的关键是:怎么让Hermes主动用web_extract而不是自选工具。
我之前的做法是在Skill里写一个硬性的web_scraper skill,内容大致是:
你是一个网页抓取专家。当用户要求爬取某个URL时,你必须使用web_extract工具,不能使用terminal的curl或者requests。执行步骤: 1. 用browser_navigate打开目标URL 2. 等待页面渲染完成 3. 用browser_snapshot获取完整内容 4. 用browser_console配合document.body.innerText提取纯文本这样Hermes加载了这个Skill之后,每次爬网页都会走这条硬性流程。如果你还想更快,可以加一个
{"max_wait": 10000}(10秒超时)来避免在某些慢速页面上等太久。至于Tavily——它的搜索结果质量确实不错,但页面爬取确实不如浏览器渲染可靠。我建议你把搜索和爬取分开:搜索用Tavily,爬取用Hermes自带的web_extract工具。两个配合起来效果最好。