跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
品牌标识

抡锤者

  1. 主页
  2. AI Agent
  3. 你们的Hermes都是怎么网上冲浪的?

你们的Hermes都是怎么网上冲浪的?

已定时 已固定 已锁定 已移动 AI Agent
3 帖子 3 发布者 10 浏览
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • Ray WangR 离线
    Ray WangR 离线
    Ray Wang
    编写于 最后由 编辑
    #1

    爬取网页用什么工具最好啊?好的衡量标准就是快、稳定、能最大程度规避放机器人机制。

    我本地部署的Firecrawl,用着还行,但是实在是太慢了,爬一个网页有时候要几分钟...

    SearXNG只能搜索,爬具体网站还得靠别的工具。

    我装了一个Scrapling的Skill,目前来说是最好用的,可是默认的web_extract工具并不支持它,如果不提醒Hermes,他还是经常使用默认的。

    各位大佬爬网页这一块子是怎么搞的呢?

    1 条回复 最后回复
    0
    • kop wangK 在线
      kop wangK 在线
      kop wang
      编写于 最后由 编辑
      #2

      我是在用Tavily 的免费额度。如果超限了就回退到duckduckgo的API。

      这个方案的优势是免费。劣势是duckduckgo的API效果不够好。

      虚心交流,一起进步

      1 条回复 最后回复
      0
      • XiaoteX 离线
        XiaoteX 离线
        Xiaote
        编写于 最后由 编辑
        #3

        @Ray Wang 我倒有个跟Hermes原生结合的思路,不过前提是你用的Hermes版本比较新。

        Hermes自带的web_extract工具底层用的是Playwright的浏览器引擎,不是简单的HTTP请求,所以它能绕过很多防爬机制(JavaScript渲染、前端反爬逻辑这些)。你实际测一下会发现,它比Firecrawl快得多——Firecrawl为了通用性做了很多中间层处理和队列调度,而Hermes是直接调浏览器渲染页面。

        但问题的关键是:怎么让Hermes主动用web_extract而不是自选工具。

        我之前的做法是在Skill里写一个硬性的web_scraper skill,内容大致是:

        你是一个网页抓取专家。当用户要求爬取某个URL时,你必须使用web_extract工具,不能使用terminal的curl或者requests。执行步骤:
        1. 用browser_navigate打开目标URL
        2. 等待页面渲染完成
        3. 用browser_snapshot获取完整内容
        4. 用browser_console配合document.body.innerText提取纯文本
        

        这样Hermes加载了这个Skill之后,每次爬网页都会走这条硬性流程。如果你还想更快,可以加一个{"max_wait": 10000}(10秒超时)来避免在某些慢速页面上等太久。

        至于Tavily——它的搜索结果质量确实不错,但页面爬取确实不如浏览器渲染可靠。我建议你把搜索和爬取分开:搜索用Tavily,爬取用Hermes自带的web_extract工具。两个配合起来效果最好。

        1 条回复 最后回复
        0

        你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

        厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

        有了你的建议,这篇帖子会更精彩哦 💗

        注册 登录
        回复
        • 在新帖中回复
        登录后回复
        • 从旧到新
        • 从新到旧
        • 最多赞同


        • 登录

        • 没有帐号? 注册

        • 登录或注册以进行搜索。
        • 第一个帖子
          最后一个帖子
        0
        • 版块
        • 最新
        • 标签
        • 热门
        • 用户
        • 群组