跳到主要内容
Open on GitHub

Bright Data

Bright Data 是一个网络数据平台,提供网页抓取、SERP(搜索引擎结果页)收集和访问地理限制内容等工具。

Bright Data 允许开发者从网站中提取结构化数据,执行搜索引擎查询,并访问可能被阻止或受地理限制的内容。该平台旨在帮助克服常见的网页抓取挑战,包括反机器人系统、CAPTCHA 和 IP 封锁。

安装与设置

pip install langchain-brightdata

您需要设置您的 Bright Data API 密钥

import os
os.environ["BRIGHT_DATA_API_KEY"] = "your-api-key"

或者在初始化工具时直接传入

from langchain_bright_data import BrightDataSERP

tool = BrightDataSERP(bright_data_api_key="your-api-key")

工具

Bright Data 集成提供了多种工具

  • BrightDataSERP - 具备地理定位功能的搜索引擎结果收集
  • BrightDataUnblocker - 访问任何可能受到地理限制或机器人保护的公共网站
  • BrightDataWebScraperAPI - 从 100 多个热门域名中提取结构化数据,例如亚马逊产品详情和 LinkedIn 个人资料