跳至主要内容

浏览器基础

Browserbase 是一个开发者平台,用于可靠地运行、管理和监控无头浏览器。

使用以下功能为您的 AI 数据检索提供动力:

安装和设置

  • browserbase.com 获取 API 密钥和项目 ID,并将其设置在环境变量中 (BROWSERBASE_API_KEYBROWSERBASE_PROJECT_ID)。
  • 安装 Browserbase SDK
%pip install browserbase

加载文档

您可以使用 BrowserbaseLoader 将网页加载到 LangChain 中。 您可以选择设置 text_content 参数,将页面转换为纯文本表示形式。

from langchain_community.document_loaders import BrowserbaseLoader
API 参考:BrowserbaseLoader
loader = BrowserbaseLoader(
urls=[
"https://example.com",
],
# Text mode
text_content=False,
)

docs = loader.load()
print(docs[0].page_content[:61])

加载程序选项

  • urls 必填。 要获取的 URL 列表。
  • text_content 仅检索文本内容。 默认为 False
  • api_key 可选。 Browserbase API 密钥。 默认为 BROWSERBASE_API_KEY 环境变量。
  • project_id 可选。 Browserbase 项目 ID。 默认为 BROWSERBASE_PROJECT_ID 环境变量。
  • session_id 可选。 提供现有会话 ID。
  • proxy 可选。 启用/禁用代理。

加载图像

您还可以加载网页的屏幕截图(作为字节),用于多模式模型。

使用 GPT-4V 的完整示例

from browserbase import Browserbase
from browserbase.helpers.gpt4 import GPT4VImage, GPT4VImageDetail
from langchain_core.messages import HumanMessage
from langchain_openai import ChatOpenAI

chat = ChatOpenAI(model="gpt-4-vision-preview", max_tokens=256)
browser = Browserbase()

screenshot = browser.screenshot("https://browserbase.com")

result = chat.invoke(
[
HumanMessage(
content=[
{"type": "text", "text": "What color is the logo?"},
GPT4VImage(screenshot, GPT4VImageDetail.auto),
]
)
]
)

print(result.content)
API 参考:HumanMessage | ChatOpenAI

此页面对您有帮助吗?


您也可以在 GitHub 上留下详细的反馈 on GitHub.