DatabricksVectorSearch
Databricks 向量搜索 是一个无服务器相似性搜索引擎,允许您将数据的向量表示(包括元数据)存储在向量数据库中。使用向量搜索,您可以从 Unity Catalog 管理的 Delta 表创建自动更新的向量搜索索引,并使用简单的 API 查询它们以返回最相似的向量。
此笔记本展示了如何将 LangChain 与 Databricks 向量搜索一起使用。
设置
要访问 Databricks 模型,您需要创建一个 Databricks 帐户,设置凭据(仅当您在 Databricks 工作区之外时),并安装所需的软件包。
凭据(仅当您在 Databricks 外部时)
如果您在 Databricks 内运行 LangChain 应用程序,可以跳过此步骤。
否则,您需要手动将 Databricks 工作区主机名和个人访问令牌分别设置为 DATABRICKS_HOST
和 DATABRICKS_TOKEN
环境变量。请参阅 身份验证文档,了解如何获取访问令牌。
import getpass
import os
os.environ["DATABRICKS_HOST"] = "https://your-databricks-workspace"
if "DATABRICKS_TOKEN" not in os.environ:
os.environ["DATABRICKS_TOKEN"] = getpass.getpass(
"Enter your Databricks access token: "
)
安装
LangChain Databricks 集成位于 langchain-databricks
包中。
%pip install -qU langchain-databricks
创建向量搜索端点和索引(如果您还没有)
在本节中,我们将使用客户端 SDK 创建 Databricks 向量搜索端点和索引。
如果您已经拥有端点和索引,可以跳过本节,直接进入“实例化”部分。
首先,实例化 Databricks VectorSearch 客户端
from databricks.vector_search.client import VectorSearchClient
client = VectorSearchClient()
接下来,我们将创建一个新的 VectorSearch 端点。
endpoint_name = "<your-endpoint-name>"
client.create_endpoint(name=endpoint_name, endpoint_type="STANDARD")
最后,我们将创建一个可以在端点上查询的索引。Databricks 向量搜索中有两种类型的索引,DatabricksVectorSearch
类支持这两种用例。
-
Delta 同步索引会自动与源 Delta 表同步,当基础 Delta 表中的数据发生变化时,会自动且增量地更新索引。
-
直接向量访问索引支持对向量和元数据的直接读写。用户负责使用 REST API 或 Python SDK 更新此表。
对于 delta 同步索引,您也可以选择使用 Databricks 管理的嵌入或自管理的嵌入(通过 LangChain 嵌入类)。
以下代码创建了一个直接访问索引。有关创建其他类型索引的说明,请参阅 Databricks 文档。
index_name = "<your-index-name>" # Format: "<catalog>.<schema>.<index-name>"
index = client.create_direct_access_index(
endpoint_name=endpoint_name,
index_name=index_name,
primary_key="id",
# Dimension of the embeddings. Please change according to the embedding model you are using.
embedding_dimension=3072,
# A column to store the embedding vectors for the text data
embedding_vector_column="text_vector",
schema={
"id": "string",
"text": "string",
"text_vector": "array<float>",
# Optional metadata columns
"source": "string",
},
)
index.describe()
实例化
DatabricksVectorSearch
的实例化略有不同,具体取决于您的索引使用的是 Databricks 管理的嵌入还是自管理的嵌入,即您选择的 LangChain 嵌入对象。
如果您使用的是带有 Databricks 管理的嵌入的 delta 同步索引
from langchain_databricks.vectorstores import DatabricksVectorSearch
vector_store = DatabricksVectorSearch(
endpoint=endpoint_name,
index_name=index_name,
)
如果您使用的是直接访问索引或带有自管理的嵌入的 delta 同步索引,您还需要提供源表中用于嵌入的嵌入模型和文本列
- OpenAI
- HuggingFace
- 假嵌入
pip install -qU langchain-openai
import getpass
os.environ["OPENAI_API_KEY"] = getpass.getpass()
from langchain_openai import OpenAIEmbeddings
embeddings = OpenAIEmbeddings(model="text-embedding-3-large")
pip install -qU langchain-huggingface
from langchain_huggingface import HuggingFaceEmbeddings
embeddings = HuggingFaceEmbeddings(model="sentence-transformers/all-mpnet-base-v2")
pip install -qU langchain-core
from langchain_core.embeddings import FakeEmbeddings
embeddings = FakeEmbeddings(size=4096)
vector_store = DatabricksVectorSearch(
endpoint=endpoint_name,
index_name=index_name,
embedding=embeddings,
# The column name in the index that contains the text data to be embedded
text_column="document_content",
)
管理向量存储
将项目添加到向量存储
注意:通过 add_documents
方法将项目添加到向量存储仅适用于直接访问索引。
from langchain_core.documents import Document
document_1 = Document(page_content="foo", metadata={"source": "https://example.com"})
document_2 = Document(page_content="bar", metadata={"source": "https://example.com"})
document_3 = Document(page_content="baz", metadata={"source": "https://example.com"})
documents = [document_1, document_2, document_3]
vector_store.add_documents(documents=documents, ids=["1", "2", "3"])
['1', '2', '3']
从向量存储中删除项目
注意:通过 delete
方法从向量存储中删除项目仅适用于直接访问索引。
vector_store.delete(ids=["3"])
True
查询向量存储
创建向量存储并将相关文档添加进去后,您可能希望在链或代理运行期间查询它。
直接查询
执行简单的相似性搜索可以按如下方式进行
results = vector_store.similarity_search(
query="thud", k=1, filter={"source": "https://example.com"}
)
for doc in results:
print(f"* {doc.page_content} [{doc.metadata}]")
* foo [{'id': '1'}]
注意:默认情况下,相似性搜索仅返回主键和文本列。如果要检索与文档关联的自定义元数据,请在初始化向量存储时在 columns
参数中传递其他列。
vector_store = DatabricksVectorSearch(
endpoint=endpoint_name,
index_name=index_name,
embedding=embeddings,
text_column="text",
columns=["source"],
)
results = vector_store.similarity_search(query="thud", k=1)
for doc in results:
print(f"* {doc.page_content} [{doc.metadata}]")
* foo [{'source': 'https://example.com', 'id': '1'}]
如果要执行相似性搜索并接收相应的得分,可以运行
results = vector_store.similarity_search_with_score(
query="thud", k=1, filter={"source": "https://example.com"}
)
for doc, score in results:
print(f"* [SIM={score:3f}] {doc.page_content} [{doc.metadata}]")
* [SIM=0.414035] foo [{'source': 'https://example.com', 'id': '1'}]
通过将其转换为检索器进行查询
您还可以将向量存储转换为检索器,以便在您的链中更轻松地使用它。
retriever = vector_store.as_retriever(search_type="mmr", search_kwargs={"k": 1})
retriever.invoke("thud")
[Document(metadata={'source': 'https://example.com', 'id': '1'}, page_content='foo')]
用于检索增强生成
有关如何将此向量存储用于检索增强生成 (RAG) 的指南,请参阅以下部分
API 参考
有关 DatabricksVectorSearch 所有功能和配置的详细文档,请前往 API 参考:https://python-api.langchain.ac.cn/en/latest/vectorstores/langchain_databricks.vectorstores.DatabricksVectorSearch.html