Rockset
Rockset 是一个为云构建的实时搜索和分析数据库。Rockset 使用 Converged Index™,并配备高效的向量嵌入存储,以大规模提供低延迟、高并发搜索查询。Rockset 全面支持元数据过滤,并处理实时摄取,以不断更新流式数据。
此笔记本演示了如何在 LangChain 中使用 Rockset
作为向量存储。在开始之前,请确保您拥有 Rockset
帐户和可用的 API 密钥。 立即开始免费试用。
您需要使用 pip install -qU langchain-community
安装 langchain-community
才能使用此集成
设置您的环境
利用
Rockset
控制台创建一个 集合,并将写入 API 作为您的数据源。在本演练中,我们创建了一个名为langchain_demo
的集合。配置以下 摄取转换 以标记您的嵌入字段,并利用性能和存储优化
(我们在本示例中使用了 OpenAI text-embedding-ada-002
,其中 #length_of_vector_embedding = 1536)
SELECT _input.* EXCEPT(_meta),
VECTOR_ENFORCE(_input.description_embedding, #length_of_vector_embedding, 'float') as description_embedding
FROM _input
创建集合后,请使用控制台检索 API 密钥。在本笔记本中,我们假设您使用的是
Oregon(us-west-2)
地区。安装 rockset-python-client 以使 LangChain 能够直接与
Rockset
通信。
%pip install --upgrade --quiet rockset
LangChain 教程
在您自己的 Python 笔记本中按照说明进行操作,以在 Rockset 中生成和存储向量嵌入。开始使用 Rockset 搜索与您的搜索查询类似的文档。
1. 定义关键变量
import os
import rockset
ROCKSET_API_KEY = os.environ.get(
"ROCKSET_API_KEY"
) # Verify ROCKSET_API_KEY environment variable
ROCKSET_API_SERVER = rockset.Regions.usw2a1 # Verify Rockset region
rockset_client = rockset.RocksetClient(ROCKSET_API_SERVER, ROCKSET_API_KEY)
COLLECTION_NAME = "langchain_demo"
TEXT_KEY = "description"
EMBEDDING_KEY = "description_embedding"
2. 准备文档
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import Rockset
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter
loader = TextLoader("../../how_to/state_of_the_union.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)
3. 插入文档
embeddings = OpenAIEmbeddings() # Verify OPENAI_API_KEY environment variable
docsearch = Rockset(
client=rockset_client,
embeddings=embeddings,
collection_name=COLLECTION_NAME,
text_key=TEXT_KEY,
embedding_key=EMBEDDING_KEY,
)
ids = docsearch.add_texts(
texts=[d.page_content for d in docs],
metadatas=[d.metadata for d in docs],
)
4. 搜索类似文档
query = "What did the president say about Ketanji Brown Jackson"
output = docsearch.similarity_search_with_relevance_scores(
query, 4, Rockset.DistanceFunction.COSINE_SIM
)
print("output length:", len(output))
for d, dist in output:
print(dist, d.metadata, d.page_content[:20] + "...")
##
# output length: 4
# 0.764990692109871 {'source': '../../../state_of_the_union.txt'} Madam Speaker, Madam...
# 0.7485416901622112 {'source': '../../../state_of_the_union.txt'} And I’m taking robus...
# 0.7468678973398306 {'source': '../../../state_of_the_union.txt'} And so many families...
# 0.7436231261419488 {'source': '../../../state_of_the_union.txt'} Groups of citizens b...
5. 使用过滤搜索类似文档
output = docsearch.similarity_search_with_relevance_scores(
query,
4,
Rockset.DistanceFunction.COSINE_SIM,
where_str="{} NOT LIKE '%citizens%'".format(TEXT_KEY),
)
print("output length:", len(output))
for d, dist in output:
print(dist, d.metadata, d.page_content[:20] + "...")
##
# output length: 4
# 0.7651359650263554 {'source': '../../../state_of_the_union.txt'} Madam Speaker, Madam...
# 0.7486265516824893 {'source': '../../../state_of_the_union.txt'} And I’m taking robus...
# 0.7469625542348115 {'source': '../../../state_of_the_union.txt'} And so many families...
# 0.7344177777547739 {'source': '../../../state_of_the_union.txt'} We see the unity amo...
6. [可选] 删除已插入的文档
您必须拥有与每个文档关联的唯一 ID 才能从集合中删除它们。使用 Rockset.add_texts()
在插入文档时定义 ID。否则,Rockset 将为每个文档生成一个唯一 ID。无论哪种情况,Rockset.add_texts()
都将返回已插入文档的 ID。
要删除这些文档,只需使用 Rockset.delete_texts()
函数即可。
docsearch.delete_texts(ids)
总结
在本教程中,我们成功地创建了一个 Rockset
集合,使用 OpenAI 嵌入 插入
了文档,并使用和不使用元数据过滤器搜索了类似的文档。
请密切关注 https://rockset.com/,了解该领域未来的更新。