跳至主要内容

Pebblo 安全文档加载器

Pebblo 使开发人员能够安全地加载数据并将他们的 Gen AI 应用程序推广到部署,而无需担心组织的合规性和安全要求。该项目识别加载数据中找到的语义主题和实体,并在 UI 或 PDF 报告中对其进行汇总。

Pebblo 具有两个组件。

  1. 适用于 Langchain 的 Pebblo 安全 DocumentLoader
  2. Pebblo 服务器

本文档描述了如何使用 Pebblo 安全 DocumentLoader 来增强您现有的 Langchain DocumentLoader,以便在 Gen-AI Langchain 应用程序中获取有关摄入的主题和实体类型的深入数据可视性。有关 Pebblo 服务器 的详细信息,请参阅此 pebblo 服务器 文档。

Pebblo Safeloader 允许安全地为 Langchain DocumentLoader 摄入数据。这是通过使用 Pebblo 安全 DocumentLoader 包装文档加载程序调用来实现的。

注意:要在 pebblo 的默认 (localhost:8000) URL 之外的某个 URL 上配置 pebblo 服务器,请将正确的 URL 放入 PEBBLO_CLASSIFIER_URL 环境变量中。这也可以使用 classifier_url 关键字参数进行配置。参考:服务器配置

如何启用 Pebblo 文档加载?

假设一个使用 CSVLoader 读取 CSV 文档以进行推理的 Langchain RAG 应用程序代码片段。

以下是使用 CSVLoader 加载文档的代码片段。

from langchain_community.document_loaders import CSVLoader

loader = CSVLoader("data/corp_sens_data.csv")
documents = loader.load()
print(documents)
API 参考:CSVLoader

只需对上面的代码片段进行几行代码更改,即可启用 Pebblo SafeLoader。

from langchain_community.document_loaders import CSVLoader, PebbloSafeLoader

loader = PebbloSafeLoader(
CSVLoader("data/corp_sens_data.csv"),
name="acme-corp-rag-1", # App name (Mandatory)
owner="Joe Smith", # Owner (Optional)
description="Support productivity RAG application", # Description (Optional)
)
documents = loader.load()
print(documents)

将语义主题和身份发送到 Pebblo 云服务器

要将语义数据发送到 pebblo 云,请将 api 密钥作为参数传递给 PebbloSafeLoader,或者将 api 密钥放入 PEBBLO_API_KEY 环境变量中。

from langchain_community.document_loaders import CSVLoader, PebbloSafeLoader

loader = PebbloSafeLoader(
CSVLoader("data/corp_sens_data.csv"),
name="acme-corp-rag-1", # App name (Mandatory)
owner="Joe Smith", # Owner (Optional)
description="Support productivity RAG application", # Description (Optional)
api_key="my-api-key", # API key (Optional, can be set in the environment variable PEBBLO_API_KEY)
)
documents = loader.load()
print(documents)

将语义主题和身份添加到加载的元数据

要将语义主题和语义实体添加到加载的文档的元数据中,请将 load_semantic 设置为 True 作为参数,或者定义一个新的环境变量 PEBBLO_LOAD_SEMANTIC,并将其设置为 True。

from langchain_community.document_loaders import CSVLoader, PebbloSafeLoader

loader = PebbloSafeLoader(
CSVLoader("data/corp_sens_data.csv"),
name="acme-corp-rag-1", # App name (Mandatory)
owner="Joe Smith", # Owner (Optional)
description="Support productivity RAG application", # Description (Optional)
api_key="my-api-key", # API key (Optional, can be set in the environment variable PEBBLO_API_KEY)
load_semantic=True, # Load semantic data (Optional, default is False, can be set in the environment variable PEBBLO_LOAD_SEMANTIC)
)
documents = loader.load()
print(documents[0].metadata)

此页面是否有帮助?


您也可以留下详细的反馈 在 GitHub 上.