LangSmithLoader
本笔记提供了 LangSmith 文档加载器 的快速入门概述。有关 LangSmithLoader 所有功能和配置的详细文档,请查阅 API 参考。
概述
集成详情
| 类别 | 包 | 本地 | 可序列化 | JS 支持 | 
|---|---|---|---|---|
| LangSmithLoader | langchain-core | ❌ | ❌ | ❌ | 
加载器功能
| 来源 | 延迟加载 | 原生异步 | 
|---|---|---|
| LangSmithLoader | ✅ | ❌ | 
设置
要访问 LangSmith 文档加载器,您需要安装 langchain-core,创建一个 LangSmith 账户并获取 API 密钥。
凭证
请在 https://langsmith.com 注册并生成 API 密钥。完成此操作后,请设置 LANGSMITH_API_KEY 环境变量
import getpass
import os
if not os.environ.get("LANGSMITH_API_KEY"):
    os.environ["LANGSMITH_API_KEY"] = getpass.getpass("Enter your LangSmith API key: ")
如果您想获得自动化的最佳追踪功能,您也可以开启 LangSmith 追踪
# os.environ["LANGSMITH_TRACING"] = "true"
安装
安装 langchain-core
%pip install -qU langchain-core
克隆示例数据集
在此示例中,我们将克隆并加载一个公共 LangSmith 数据集。克隆会在您的个人 LangSmith 账户中创建一个该数据集的副本。您只能加载您拥有个人副本的数据集。
from langsmith import Client as LangSmithClient
ls_client = LangSmithClient()
dataset_name = "LangSmith Few Shot Datasets Notebook"
dataset_public_url = (
    "https://smith.langchain.com/public/55658626-124a-4223-af45-07fb774a6212/d"
)
ls_client.clone_public_dataset(dataset_public_url)
初始化
现在我们可以实例化我们的文档加载器并加载文档
from langchain_core.document_loaders import LangSmithLoader
loader = LangSmithLoader(
    dataset_name=dataset_name,
    content_key="question",
    limit=50,
    # format_content=...,
    # ...
)
API 参考:LangSmithLoader
加载
docs = loader.load()
print(docs[0].page_content)
Show me an example using Weaviate, but customizing the vectorStoreRetriever to return the top 10 k nearest neighbors.
print(docs[0].metadata["inputs"])
{'question': 'Show me an example using Weaviate, but customizing the vectorStoreRetriever to return the top 10 k nearest neighbors. '}
print(docs[0].metadata["outputs"])
{'answer': 'To customize the Weaviate client and return the top 10 k nearest neighbors, you can utilize the `as_retriever` method with the appropriate parameters. Here\'s how you can achieve this:\n\n\`\`\`python\n# Assuming you have imported the necessary modules and classes\n\n# Create the Weaviate client\nclient = weaviate.Client(url=os.environ["WEAVIATE_URL"], ...)\n\n# Initialize the Weaviate wrapper\nweaviate = Weaviate(client, index_name, text_key)\n\n# Customize the client to return top 10 k nearest neighbors using as_retriever\ncustom_retriever = weaviate.as_retriever(\n    search_type="similarity",\n    search_kwargs={\n        \'k\': 10  # Customize the value of k as needed\n    }\n)\n\n# Now you can use the custom_retriever to perform searches\nresults = custom_retriever.search(query, ...)\n\`\`\`'}
list(docs[0].metadata.keys())
['dataset_id',
 'inputs',
 'outputs',
 'metadata',
 'id',
 'created_at',
 'modified_at',
 'runs',
 'source_run_id']
延迟加载
page = []
for doc in loader.lazy_load():
    page.append(doc)
    if len(page) >= 10:
        # do some paged operation, e.g.
        # index.upsert(page)
        # page = []
        break
len(page)
10
API 参考
有关 LangSmithLoader 所有功能和配置的详细文档,请查阅 API 参考: https://python.langchain.ac.cn/api_reference/core/document_loaders/langchain_core.document_loaders.langsmith.LangSmithLoader.html