DatabricksVectorSearch

Databricks 向量搜索是一个无服务器相似性搜索引擎，允许您将数据的向量表示（包括元数据）存储在向量数据库中。使用向量搜索，您可以从 Unity Catalog 管理的 Delta 表创建自动更新的向量搜索索引，并使用简单的 API 查询它们以返回最相似的向量。

此笔记本展示了如何将 LangChain 与 Databricks 向量搜索一起使用。

设置

要访问 Databricks 模型，您需要创建一个 Databricks 帐户，设置凭据（仅当您在 Databricks 工作区外部时），并安装所需的软件包。

凭据（仅当您在 Databricks 外部时）

如果您在 Databricks 内部运行 LangChain 应用程序，则可以跳过此步骤。

否则，您需要手动将 Databricks 工作区主机名和个人访问令牌分别设置为 DATABRICKS_HOST 和 DATABRICKS_TOKEN 环境变量。有关如何获取访问令牌，请参阅身份验证文档。

import getpass
import os

os.environ["DATABRICKS_HOST"] = "https://your-databricks-workspace"
os.environ["DATABRICKS_TOKEN"] = getpass.getpass("Enter your Databricks access token: ")

安装

LangChain Databricks 集成位于 langchain-databricks 软件包中。

%pip install -qU langchain-databricks

创建向量搜索端点和索引（如果您尚未创建）

在本节中，我们将使用客户端 SDK 创建 Databricks 向量搜索端点和索引。

如果您已经拥有端点和索引，则可以跳过本节，直接转到“实例化”部分。

首先，实例化 Databricks VectorSearch 客户端

from databricks.vector_search.client import VectorSearchClient

client = VectorSearchClient()

接下来，我们将创建一个新的 VectorSearch 端点。

endpoint_name = "<your-endpoint-name>"

client.create_endpoint(name=endpoint_name, endpoint_type="STANDARD")

最后，我们将创建一个可以在端点上查询的索引。Databricks 向量搜索中有两种类型的索引，DatabricksVectorSearch 类支持这两种用例。

Delta 同步索引会自动与源 Delta 表同步，并在底层 Delta 表中的数据发生变化时自动增量更新索引。
直接向量访问索引支持对向量和元数据的直接读写。用户负责使用 REST API 或 Python SDK 更新此表。

对于 delta 同步索引，您还可以选择使用 Databricks 托管的嵌入或自托管的嵌入（通过 LangChain 嵌入类）。

以下代码创建了一个直接访问索引。有关创建其他类型索引的说明，请参阅Databricks 文档。

index_name = "<your-index-name>"  # Format: "<catalog>.<schema>.<index-name>"

index = client.create_direct_access_index(
    endpoint_name=endpoint_name,
    index_name=index_name,
    primary_key="id",
    # Dimension of the embeddings. Please change according to the embedding model you are using.
    embedding_dimension=3072,
    # A column to store the embedding vectors for the text data
    embedding_vector_column="text_vector",
    schema={
        "id": "string",
        "text": "string",
        "text_vector": "array<float>",
        # Optional metadata columns
        "source": "string",
    },
)

index.describe()

实例化

DatabricksVectorSearch 的实例化略有不同，具体取决于您的索引是使用 Databricks 托管的嵌入还是自托管的嵌入，即您选择的 LangChain 嵌入对象。

如果您使用的是带有 Databricks 托管嵌入的 delta 同步索引

from langchain_databricks.vectorstores import DatabricksVectorSearch

vector_store = DatabricksVectorSearch(
    endpoint=endpoint_name,
    index_name=index_name,
)

如果您使用的是直接访问索引或带有自托管嵌入的 delta 同步索引，则还需要提供源表中的嵌入模型和文本列以用于嵌入

OpenAI
HuggingFace
伪嵌入

pip install -qU langchain-openai

import getpass

    os.environ["OPENAI_API_KEY"] = getpass.getpass()

from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model="text-embedding-3-large")

pip install -qU langchain-huggingface

from langchain_huggingface import HuggingFaceEmbeddings

embeddings = HuggingFaceEmbeddings(model="sentence-transformers/all-mpnet-base-v2")

pip install -qU langchain-core

from langchain_core.embeddings import FakeEmbeddings

embeddings = FakeEmbeddings(size=4096)

vector_store = DatabricksVectorSearch(
    endpoint=endpoint_name,
    index_name=index_name,
    embedding=embeddings,
    # The column name in the index that contains the text data to be embedded
    text_column="document_content",
)

管理向量存储

将项目添加到向量存储

注意：仅支持通过 add_documents 方法将项目添加到直接访问索引的向量存储中。

from langchain_core.documents import Document

document_1 = Document(page_content="foo", metadata={"source": "https://example.com"})

document_2 = Document(page_content="bar", metadata={"source": "https://example.com"})

document_3 = Document(page_content="baz", metadata={"source": "https://example.com"})

documents = [document_1, document_2, document_3]

vector_store.add_documents(documents=documents, ids=["1", "2", "3"])

API 参考：文档

['1', '2', '3']

从向量存储中删除项目

注意：仅支持通过 delete 方法从直接访问索引的向量存储中删除项目。

vector_store.delete(ids=["3"])

True

查询向量存储

创建向量存储并添加相关文档后，您很可能希望在链或代理运行期间查询它。

直接查询

可以按如下方式执行简单的相似性搜索

results = vector_store.similarity_search(
    query="thud", k=1, filter={"source": "https://example.com"}
)
for doc in results:
    print(f"* {doc.page_content} [{doc.metadata}]")

* foo [{'id': '1'}]

注意：默认情况下，相似性搜索仅返回主键和文本列。如果要检索与文档关联的自定义元数据，请在初始化向量存储时在 columns 参数中传递其他列。

vector_store = DatabricksVectorSearch(
    endpoint=endpoint_name,
    index_name=index_name,
    embedding=embeddings,
    text_column="text",
    columns=["source"],
)

results = vector_store.similarity_search(query="thud", k=1)
for doc in results:
    print(f"* {doc.page_content} [{doc.metadata}]")

* foo [{'source': 'https://example.com', 'id': '1'}]

如果要执行相似性搜索并接收相应的得分，您可以运行

results = vector_store.similarity_search_with_score(
    query="thud", k=1, filter={"source": "https://example.com"}
)
for doc, score in results:
    print(f"* [SIM={score:3f}] {doc.page_content} [{doc.metadata}]")

* [SIM=0.414035] foo [{'source': 'https://example.com', 'id': '1'}]

通过转换为检索器进行查询

您还可以将向量存储转换为检索器，以便在链中更轻松地使用。

retriever = vector_store.as_retriever(search_type="mmr", search_kwargs={"k": 1})
retriever.invoke("thud")

[Document(metadata={'source': 'https://example.com', 'id': '1'}, page_content='foo')]

检索增强生成的使用

有关如何将此向量存储用于检索增强生成 (RAG) 的指南，请参阅以下部分

API 参考

有关 DatabricksVectorSearch 所有功能和配置的详细文档，请访问 API 参考：https://python-api.langchain.ac.cn/en/latest/vectorstores/langchain_databricks.vectorstores.DatabricksVectorSearch.html

向量存储概念指南
向量存储操作指南

DatabricksVectorSearch

设置

凭据（仅当您在 Databricks 外部时）

安装

创建向量搜索端点和索引（如果您尚未创建）

实例化

管理向量存储

将项目添加到向量存储

从向量存储中删除项目

查询向量存储

直接查询

通过转换为检索器进行查询

检索增强生成的使用

API 参考

此页面是否有帮助？

您还可以留下详细的反馈在 GitHub 上.

DatabricksVectorSearch

设置​

凭据（仅当您在 Databricks 外部时）​

安装​

创建向量搜索端点和索引（如果您尚未创建）​

实例化​

管理向量存储​

将项目添加到向量存储​

从向量存储中删除项目​

查询向量存储​

直接查询​

通过转换为检索器进行查询​

检索增强生成的使用​

API 参考​

相关​

此页面是否有帮助？

您还可以留下详细的反馈 在 GitHub 上.

设置

凭据（仅当您在 Databricks 外部时）

安装

创建向量搜索端点和索引（如果您尚未创建）

实例化

管理向量存储

将项目添加到向量存储

从向量存储中删除项目

查询向量存储

直接查询

通过转换为检索器进行查询

检索增强生成的使用

API 参考

相关

您还可以留下详细的反馈在 GitHub 上.