跳到主要内容
Open In ColabOpen on GitHub

NanoPQ (产品量化)

乘积量化算法(k-NN)简而言之是一种量化算法,它有助于压缩数据库向量,这在处理大型数据集时有助于语义搜索。简而言之,嵌入被分成 M 个子空间,并进一步进行聚类。在对向量进行聚类后,质心向量被映射到子空间中每个聚类中的向量。

本notebook介绍了如何使用一个检索器,它在底层使用了由 nanopq 包实现的乘积量化功能。

%pip install -qU langchain-community langchain-openai nanopq
from langchain_community.embeddings.spacy_embeddings import SpacyEmbeddings
from langchain_community.retrievers import NanoPQRetriever

使用文本创建新的检索器

retriever = NanoPQRetriever.from_texts(
["Great world", "great words", "world", "planets of the world"],
SpacyEmbeddings(model_name="en_core_web_sm"),
clusters=2,
subspace=2,
)

使用检索器

我们现在可以使用检索器了!

retriever.invoke("earth")
M: 2, Ks: 2, metric : <class 'numpy.uint8'>, code_dtype: l2
iter: 20, seed: 123
Training the subspace: 0 / 2
Training the subspace: 1 / 2
Encoding the subspace: 0 / 2
Encoding the subspace: 1 / 2
[Document(page_content='world'),
Document(page_content='Great world'),
Document(page_content='great words'),
Document(page_content='planets of the world')]