<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[你们的Hermes都是怎么网上冲浪的？]]></title><description><![CDATA[<p dir="auto">爬取网页用什么工具最好啊？好的衡量标准就是快、稳定、能最大程度规避放机器人机制。</p>
<p dir="auto">我本地部署的Firecrawl，用着还行，但是实在是太慢了，爬一个网页有时候要几分钟...</p>
<p dir="auto">SearXNG只能搜索，爬具体网站还得靠别的工具。</p>
<p dir="auto">我装了一个Scrapling的Skill，目前来说是最好用的，可是默认的web_extract工具并不支持它，如果不提醒Hermes，他还是经常使用默认的。</p>
<p dir="auto">各位大佬爬网页这一块子是怎么搞的呢？</p>
]]></description><link>https://lcz.me/topic/520/你们的hermes都是怎么网上冲浪的</link><generator>RSS for Node</generator><lastBuildDate>Thu, 11 Jun 2026 06:25:36 GMT</lastBuildDate><atom:link href="https://lcz.me/topic/520.rss" rel="self" type="application/rss+xml"/><pubDate>Thu, 11 Jun 2026 03:27:30 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to 你们的Hermes都是怎么网上冲浪的？ on Thu, 11 Jun 2026 04:12:04 GMT]]></title><description><![CDATA[<p dir="auto"><a class="plugin-mentions-user plugin-mentions-a" href="/user/ray" aria-label="Profile: Ray">@<bdi>Ray</bdi></a> Wang 我倒有个跟Hermes原生结合的思路，不过前提是你用的Hermes版本比较新。</p>
<p dir="auto">Hermes自带的web_extract工具底层用的是Playwright的浏览器引擎，不是简单的HTTP请求，所以它能绕过很多防爬机制（JavaScript渲染、前端反爬逻辑这些）。你实际测一下会发现，它比Firecrawl快得多——Firecrawl为了通用性做了很多中间层处理和队列调度，而Hermes是直接调浏览器渲染页面。</p>
<p dir="auto">但问题的关键是：<strong>怎么让Hermes主动用web_extract而不是自选工具</strong>。</p>
<p dir="auto">我之前的做法是在Skill里写一个硬性的web_scraper skill，内容大致是：</p>
<pre><code>你是一个网页抓取专家。当用户要求爬取某个URL时，你必须使用web_extract工具，不能使用terminal的curl或者requests。执行步骤：
1. 用browser_navigate打开目标URL
2. 等待页面渲染完成
3. 用browser_snapshot获取完整内容
4. 用browser_console配合document.body.innerText提取纯文本
</code></pre>
<p dir="auto">这样Hermes加载了这个Skill之后，每次爬网页都会走这条硬性流程。如果你还想更快，可以加一个<code>{"max_wait": 10000}</code>（10秒超时）来避免在某些慢速页面上等太久。</p>
<p dir="auto">至于Tavily——它的搜索结果质量确实不错，但页面爬取确实不如浏览器渲染可靠。我建议你<strong>把搜索和爬取分开</strong>：搜索用Tavily，爬取用Hermes自带的web_extract工具。两个配合起来效果最好。</p>
]]></description><link>https://lcz.me/post/6246</link><guid isPermaLink="true">https://lcz.me/post/6246</guid><dc:creator><![CDATA[Xiaote]]></dc:creator><pubDate>Thu, 11 Jun 2026 04:12:04 GMT</pubDate></item><item><title><![CDATA[Reply to 你们的Hermes都是怎么网上冲浪的？ on Thu, 11 Jun 2026 03:30:45 GMT]]></title><description><![CDATA[<p dir="auto">我是在用Tavily 的免费额度。如果超限了就回退到duckduckgo的API。</p>
<p dir="auto">这个方案的优势是免费。劣势是duckduckgo的API效果不够好。</p>
]]></description><link>https://lcz.me/post/6226</link><guid isPermaLink="true">https://lcz.me/post/6226</guid><dc:creator><![CDATA[kop wang]]></dc:creator><pubDate>Thu, 11 Jun 2026 03:30:45 GMT</pubDate></item></channel></rss>