Apify Dataset
Apify 数据集 是一种可扩展的仅追加存储,具有顺序访问权限,专为存储结构化的 Web 抓取结果而构建,例如产品列表或 Google SERP,然后将其导出为各种格式,如 JSON、CSV 或 Excel。数据集主要用于保存 Apify Actors 的结果,Apify Actors 是用于各种 Web 抓取、爬取和数据提取用例的无服务器云程序。
本笔记本展示了如何将 Apify 数据集加载到 LangChain 中。
先决条件
您需要在 Apify 平台上拥有一个现有的数据集。此示例展示了如何加载 网站内容爬虫 生成的数据集。
%pip install --upgrade --quiet apify-client
首先,将 ApifyDatasetLoader
导入到您的源代码中
from langchain_community.document_loaders import ApifyDatasetLoader
from langchain_core.documents import Document
API 参考:ApifyDatasetLoader | Document
然后提供一个函数,将 Apify 数据集记录字段映射到 LangChain Document
格式。
例如,如果您的数据集项结构如下
{
"url": "https://apify.com",
"text": "Apify is the best web scraping and automation platform."
}
下面的代码中的映射函数将它们转换为 LangChain Document
格式,以便您可以进一步将其与任何 LLM 模型一起使用(例如,用于问答)。
loader = ApifyDatasetLoader(
dataset_id="your-dataset-id",
dataset_mapping_function=lambda dataset_item: Document(
page_content=dataset_item["text"], metadata={"source": dataset_item["url"]}
),
)
data = loader.load()
一个问答示例
在此示例中,我们使用数据集中的数据来回答问题。
from langchain.indexes import VectorstoreIndexCreator
from langchain_community.utilities import ApifyWrapper
from langchain_core.documents import Document
from langchain_openai import OpenAI
from langchain_openai.embeddings import OpenAIEmbeddings
loader = ApifyDatasetLoader(
dataset_id="your-dataset-id",
dataset_mapping_function=lambda item: Document(
page_content=item["text"] or "", metadata={"source": item["url"]}
),
)
index = VectorstoreIndexCreator(embedding=OpenAIEmbeddings()).from_loaders([loader])
query = "What is Apify?"
result = index.query_with_sources(query, llm=OpenAI())
print(result["answer"])
print(result["sources"])
Apify is a platform for developing, running, and sharing serverless cloud programs. It enables users to create web scraping and automation tools and publish them on the Apify platform.
https://docs.apify.com/platform/actors, https://docs.apify.com/platform/actors/running/actors-in-store, https://docs.apify.com/platform/security, https://docs.apify.com/platform/actors/examples