跳到主要内容
Open on GitHub

Hyperbrowser

Hyperbrowser 是一个用于运行和扩展无头浏览器的平台。它允许您大规模启动和管理浏览器会话,并为任何网络抓取需求提供易于使用的解决方案,例如抓取单个页面或抓取整个站点。

主要功能

  • 即时可扩展性 - 在几秒钟内启动数百个浏览器会话,而无需担心基础设施问题
  • 简单集成 - 与 Puppeteer 和 Playwright 等流行工具无缝协作
  • 强大的 API - 易于使用的 API,用于抓取/爬取任何站点,以及更多功能
  • 绕过反 Bot 措施 - 内置隐身模式、广告拦截、自动 CAPTCHA 解决和轮换代理

有关 Hyperbrowser 的更多信息,请访问 Hyperbrowser 网站,或者如果您想查看文档,可以访问 Hyperbrowser 文档

安装和设置

要开始使用 langchain-hyperbrowser,您可以使用 pip 安装软件包

pip install langchain-hyperbrowser

您应该通过设置以下环境变量来配置凭据

HYPERBROWSER_API_KEY=<您的 API 密钥>

请务必从 https://app.hyperbrowser.ai/ 获取您的 API 密钥

文档加载器

langchain-hyperbrowser 中的 HyperbrowserLoader 类可以轻松用于从任何单个页面或多个页面加载内容,以及爬取整个站点。内容可以加载为 markdown 或 html。

from langchain_hyperbrowser import HyperbrowserLoader

loader = HyperbrowserLoader(urls="https://example.com")
docs = loader.load()

print(docs[0])

高级用法

您可以指定加载器要执行的操作。默认操作是 scrape。对于 scrape,您可以提供单个 URL 或要抓取的 URL 列表。对于 crawl,您只能提供单个 URL。 crawl 操作将爬取提供的页面和子页面,并为每个页面返回一个文档。

loader = HyperbrowserLoader(
urls="https://hyperbrowser.ai", api_key="YOUR_API_KEY", operation="crawl"
)

加载器的可选参数也可以在 params 参数中提供。有关受支持参数的更多信息,请访问 https://docs.hyperbrowser.ai/reference/sdks/python/scrape#start-scrape-job-and-waithttps://docs.hyperbrowser.ai/reference/sdks/python/crawl#start-crawl-job-and-wait

loader = HyperbrowserLoader(
urls="https://example.com",
api_key="YOUR_API_KEY",
operation="scrape",
params={"scrape_options": {"include_tags": ["h1", "h2", "p"]}}
)

其他资源


此页面是否有帮助?