百度云 ElasticSearch 向量搜索

百度云向量搜索是一款完全托管的、企业级分布式搜索和分析服务，与开源完全兼容。百度云向量搜索为结构化/非结构化数据提供低成本、高性能、可靠的检索和分析平台级产品服务。作为向量数据库，它支持多种索引类型和相似度距离方法。

百度云 Elasticsearch 提供权限管理机制，您可以自由配置集群权限，进一步保障数据安全。

此笔记本展示了如何使用与百度云 Elasticsearch 向量存储相关的功能。要运行，您应该有一个正在运行的百度云 Elasticsearch 实例。

阅读帮助文档，快速熟悉和配置百度云 Elasticsearch 实例。

实例启动并运行后，请按照以下步骤拆分文档、获取嵌入、连接到百度云 Elasticsearch 实例、索引文档并执行向量检索。

我们需要首先安装以下 Python 包。

%pip install --upgrade --quiet langchain-community elasticsearch == 7.11.0

首先，我们要使用QianfanEmbeddings，所以我们需要获取 Qianfan AK 和 SK。QianFan 的详细信息与百度千帆大模型相关。

import getpass
import os

os.environ["QIANFAN_AK"] = getpass.getpass("Your Qianfan AK:")
os.environ["QIANFAN_SK"] = getpass.getpass("Your Qianfan SK:")

其次，拆分文档并获取嵌入。

from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import CharacterTextSplitter

loader = TextLoader("../../../state_of_the_union.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

from langchain_community.embeddings import QianfanEmbeddingsEndpoint

embeddings = QianfanEmbeddingsEndpoint()

API 参考：TextLoader | CharacterTextSplitter | QianfanEmbeddingsEndpoint

然后，创建一个可访问的百度 Elasticsearch 实例。

# Create a bes instance and index docs.
from langchain_community.vectorstores import BESVectorStore

bes = BESVectorStore.from_documents(
    documents=docs,
    embedding=embeddings,
    bes_url="your bes cluster url",
    index_name="your vector index",
)
bes.client.indices.refresh(index="your vector index")

API 参考：BESVectorStore

最后，查询和检索数据。

query = "What did the president say about Ketanji Brown Jackson"
docs = bes.similarity_search(query)
print(docs[0].page_content)

如果您在使用过程中遇到任何问题，请随时联系[email protected] 或[email protected]，我们将尽力为您提供支持。

向量存储概念指南
向量存储操作指南

百度云 ElasticSearch 向量搜索

此页面是否有帮助？

您也可以在 GitHub 上留下详细的反馈在 GitHub 上.

百度云 ElasticSearch 向量搜索

相关​

此页面是否有帮助？

您也可以在 GitHub 上留下详细的反馈 在 GitHub 上.

相关

您也可以在 GitHub 上留下详细的反馈在 GitHub 上.