跳到主要内容
Open In ColabOpen on GitHub

SingleStoreVectorStore

SingleStore 是一款强大、高性能的分布式 SQL 数据库解决方案,旨在在和本地环境中均表现出色。它拥有一套多功能特性,提供无缝部署选项,同时提供无与伦比的性能。

SingleStore 的一个突出特点是其对向量存储和操作的高级支持,使其成为需要复杂 AI 功能(如文本相似性匹配)的应用程序的理想选择。凭借内置的向量函数,如 dot_producteuclidean_distance,SingleStore 赋能开发人员高效地实现复杂的算法。

对于希望在 SingleStore 中利用向量数据的开发人员,我们提供了一份全面的教程,指导他们完成向量数据操作的复杂细节。本教程深入探讨了 SingleStoreDB 中的向量存储,展示了其基于向量相似性促进搜索的能力。利用向量索引,可以以惊人的速度执行查询,从而实现相关数据的快速检索。

此外,SingleStore 的向量存储与基于 Lucene 的全文索引无缝集成,实现了强大的文本相似性搜索。用户可以根据文档元数据对象的选定字段过滤搜索结果,从而提高查询精度。

SingleStore 的独特之处在于它能够以各种方式结合向量和全文搜索,提供灵活性和多功能性。无论是通过文本或向量相似性进行预过滤并选择最相关的数据,还是采用加权求和方法计算最终相似性分数,开发人员都有多种选择。

本质上,SingleStore 为管理和查询向量数据提供了一个全面的解决方案,为 AI 驱动的应用程序提供了无与伦比的性能和灵活性。

类别JS 支持
SingleStoreVectorStorelangchain_singlestore
注意

对于 langchain-community 版本中的 `SingleStoreDB`(已弃用),请参阅 v0.2 文档

设置

要访问 SingleStore 向量存储,您需要安装 `langchain-singlestore` 集成包。 %pip install -qU "langchain-singlestore"

初始化

要初始化 `SingleStoreVectorStore`,您需要一个 `Embeddings` 对象和 SingleStore 数据库的连接参数。

必需参数:

  • embedding (Embeddings): 文本嵌入模型。

可选参数:

  • distance_strategy (DistanceStrategy): 向量距离计算策略。默认为 `DOT_PRODUCT`。选项如下:

    • DOT_PRODUCT: 计算两个向量的点积。
    • EUCLIDEAN_DISTANCE: 计算两个向量之间的欧几里德距离。
  • table_name (str): 表的名称。默认为 `embeddings`。

  • content_field (str): 用于存储内容的字段。默认为 `content`。

  • metadata_field (str): 用于存储元数据的字段。默认为 `metadata`。

  • vector_field (str): 用于存储向量的字段。默认为 `vector`。

  • id_field (str): 用于存储 ID 的字段。默认为 `id`。

  • use_vector_index (bool): 启用向量索引(需要 SingleStore 8.5+)。默认为 `False`。

  • vector_index_name (str): 向量索引的名称。如果 `use_vector_index` 为 `False`,则忽略。

  • vector_index_options (dict): 向量索引的选项。如果 `use_vector_index` 为 `False`,则忽略。

  • vector_size (int): 向量的大小。如果 `use_vector_index` 为 `True`,则为必填项。

  • use_full_text_search (bool): 启用内容的全文索引。默认为 `False`。

连接池参数:

  • pool_size (int): 连接池中的活动连接数。默认为 `5`。
  • max_overflow (int): 超出 `pool_size` 的最大连接数。默认为 `10`。
  • timeout (float): 连接超时时间(秒)。默认为 `30`。

数据库连接参数:

  • host (str): 数据库主机名、IP 或 URL。
  • user (str): 数据库用户名。
  • password (str): 数据库密码。
  • port (int): 数据库端口。默认为 `3306`。
  • database (str): 数据库名称。

附加选项:

  • pure_python (bool): 启用纯 Python 模式。
  • local_infile (bool): 允许本地文件上传。
  • charset (str): 字符串值的字符集。
  • ssl_key, ssl_cert, ssl_ca (str): SSL 文件路径。
  • ssl_disabled (bool): 禁用 SSL。
  • ssl_verify_cert (bool): 验证服务器证书。
  • ssl_verify_identity (bool): 验证服务器身份。
  • autocommit (bool): 启用自动提交。
  • results_type (str): 查询结果的结构(例如,`tuples`、`dicts`)。
import os

from langchain_singlestore.vectorstores import SingleStoreVectorStore

os.environ["SINGLESTOREDB_URL"] = "root:pass@localhost:3306/db"

vector_store = SingleStoreVectorStore(embeddings=embeddings)

管理向量存储

`SingleStoreVectorStore` 假定文档的 ID 是一个整数。以下是管理向量存储的示例。

向向量存储添加项目

您可以按如下方式将文档添加到向量存储:

%pip install -qU langchain-core
from langchain_core.documents import Document

docs = [
Document(
page_content="""In the parched desert, a sudden rainstorm brought relief,
as the droplets danced upon the thirsty earth, rejuvenating the landscape
with the sweet scent of petrichor.""",
metadata={"category": "rain"},
),
Document(
page_content="""Amidst the bustling cityscape, the rain fell relentlessly,
creating a symphony of pitter-patter on the pavement, while umbrellas
bloomed like colorful flowers in a sea of gray.""",
metadata={"category": "rain"},
),
Document(
page_content="""High in the mountains, the rain transformed into a delicate
mist, enveloping the peaks in a mystical veil, where each droplet seemed to
whisper secrets to the ancient rocks below.""",
metadata={"category": "rain"},
),
Document(
page_content="""Blanketing the countryside in a soft, pristine layer, the
snowfall painted a serene tableau, muffling the world in a tranquil hush
as delicate flakes settled upon the branches of trees like nature's own
lacework.""",
metadata={"category": "snow"},
),
Document(
page_content="""In the urban landscape, snow descended, transforming
bustling streets into a winter wonderland, where the laughter of
children echoed amidst the flurry of snowballs and the twinkle of
holiday lights.""",
metadata={"category": "snow"},
),
Document(
page_content="""Atop the rugged peaks, snow fell with an unyielding
intensity, sculpting the landscape into a pristine alpine paradise,
where the frozen crystals shimmered under the moonlight, casting a
spell of enchantment over the wilderness below.""",
metadata={"category": "snow"},
),
]


vector_store.add_documents(docs)
API 参考:Document

更新向量存储中的项目

要更新向量存储中的现有文档,请使用以下代码:

updated_document = Document(
page_content="qux", metadata={"source": "https://another-example.com"}
)

vector_store.update_documents(document_id="1", document=updated_document)

从向量存储删除项目

要从向量存储中删除文档,请使用以下代码:

vector_store.delete(ids=["3"])

查询向量存储

创建向量存储并添加相关文档后,您很可能希望在运行链或代理时对其进行查询。

直接查询

执行简单的相似性搜索可以按如下方式完成

results = vector_store.similarity_search(query="trees in the snow", k=1)
for doc in results:
print(f"* {doc.page_content} [{doc.metadata}]")

如果您想执行相似性搜索并接收相应的分数,您可以运行

  • 待办:编辑并运行代码单元以生成输出
results = vector_store.similarity_search_with_score(query="trees in the snow", k=1)
for doc, score in results:
print(f"* [SIM={score:3f}] {doc.page_content} [{doc.metadata}]")

元数据过滤

SingleStoreDB 通过允许用户基于元数据字段进行预过滤来增强和优化搜索结果,从而提升了搜索能力。此功能使开发人员和数据分析师能够微调查询,确保搜索结果精确地符合他们的要求。通过使用特定的元数据属性过滤搜索结果,用户可以缩小查询范围,仅关注相关的数据子集。

query = "trees branches"
docs = vector_store.similarity_search(
query, filter={"category": "snow"}
) # Find documents that correspond to the query and has category "snow"
print(docs[0].page_content)

向量索引

通过利用 ANN 向量索引,使用 SingleStore DB 8.5 或更高版本可提高搜索效率。通过在向量存储对象创建期间设置 `use_vector_index=True`,您可以激活此功能。此外,如果您的向量维度与默认的 OpenAI 嵌入大小 1536 不同,请确保相应地指定 `vector_size` 参数。

搜索策略

SingleStoreDB 提供了多种搜索策略,每种策略都经过精心设计,以满足特定的用例和用户偏好。默认的 `VECTOR_ONLY` 策略利用 `dot_product` 或 `euclidean_distance` 等向量操作直接计算向量之间的相似性分数,而 `TEXT_ONLY` 则采用基于 Lucene 的全文搜索,这对于以文本为中心的应用程序尤其有利。对于寻求平衡方法的用户,`FILTER_BY_TEXT` 首先根据文本相似性优化结果,然后进行向量比较,而 `FILTER_BY_VECTOR` 则优先考虑向量相似性,在评估文本相似性之前过滤结果以获得最佳匹配。值得注意的是,`FILTER_BY_TEXT` 和 `FILTER_BY_VECTOR` 都需要全文索引才能操作。此外,`WEIGHTED_SUM` 是一种复杂的策略,通过加权向量和文本相似性来计算最终相似性分数,尽管它仅使用 `dot_product` 距离计算,并且也需要全文索引。这些多功能策略使用户能够根据其独特需求微调搜索,从而实现高效准确的数据检索和分析。此外,SingleStoreDB 的混合方法,以 `FILTER_BY_TEXT`、`FILTER_BY_VECTOR` 和 `WEIGHTED_SUM` 策略为例,无缝地融合了向量和基于文本的搜索,以最大限度地提高效率和准确性,确保用户可以充分利用平台功能进行广泛的应用程序。

from langchain_singlestore.vectorstores import DistanceStrategy

docsearch = SingleStoreVectorStore.from_documents(
docs,
embeddings,
distance_strategy=DistanceStrategy.DOT_PRODUCT, # Use dot product for similarity search
use_vector_index=True, # Use vector index for faster search
use_full_text_search=True, # Use full text index
)

vectorResults = docsearch.similarity_search(
"rainstorm in parched desert, rain",
k=1,
search_strategy=SingleStoreVectorStore.SearchStrategy.VECTOR_ONLY,
filter={"category": "rain"},
)
print(vectorResults[0].page_content)

textResults = docsearch.similarity_search(
"rainstorm in parched desert, rain",
k=1,
search_strategy=SingleStoreVectorStore.SearchStrategy.TEXT_ONLY,
)
print(textResults[0].page_content)

filteredByTextResults = docsearch.similarity_search(
"rainstorm in parched desert, rain",
k=1,
search_strategy=SingleStoreVectorStore.SearchStrategy.FILTER_BY_TEXT,
filter_threshold=0.1,
)
print(filteredByTextResults[0].page_content)

filteredByVectorResults = docsearch.similarity_search(
"rainstorm in parched desert, rain",
k=1,
search_strategy=SingleStoreVectorStore.SearchStrategy.FILTER_BY_VECTOR,
filter_threshold=0.1,
)
print(filteredByVectorResults[0].page_content)

weightedSumResults = docsearch.similarity_search(
"rainstorm in parched desert, rain",
k=1,
search_strategy=SingleStoreVectorStore.SearchStrategy.WEIGHTED_SUM,
text_weight=0.2,
vector_weight=0.8,
)
print(weightedSumResults[0].page_content)

转换为检索器进行查询

您还可以将向量存储转换为检索器,以便在您的链中更方便地使用。

retriever = vector_store.as_retriever(search_kwargs={"k": 1})
retriever.invoke("trees in the snow")

多模态示例:利用 CLIP 和 OpenClip 嵌入

在多模态数据分析领域,整合图像和文本等不同信息类型变得越来越重要。一个促进这种整合的强大工具是 CLIP,这是一种尖端模型,能够将图像和文本嵌入到共享的语义空间中。通过这样做,CLIP 可以通过相似性搜索检索不同模态中的相关内容。

为了说明这一点,让我们考虑一个我们旨在有效分析多模态数据的应用场景。在这个示例中,我们利用 OpenClip 多模态嵌入的能力,它利用了 CLIP 的框架。通过 OpenClip,我们可以无缝地嵌入文本描述以及相应的图像,从而实现全面的分析和检索任务。无论是根据文本查询识别视觉相似的图像,还是查找与特定视觉内容相关的文本段落,OpenClip 都使用户能够以卓越的效率和准确性探索和提取多模态数据中的洞察。

%pip install -U langchain openai lanchain-singlestore langchain-experimental
import os

from langchain_experimental.open_clip import OpenCLIPEmbeddings
from langchain_singlestore.vectorstores import SingleStoreVectorStore

os.environ["SINGLESTOREDB_URL"] = "root:pass@localhost:3306/db"

TEST_IMAGES_DIR = "../../modules/images"

docsearch = SingleStoreVectorStore(OpenCLIPEmbeddings())

image_uris = sorted(
[
os.path.join(TEST_IMAGES_DIR, image_name)
for image_name in os.listdir(TEST_IMAGES_DIR)
if image_name.endswith(".jpg")
]
)

# Add images
docsearch.add_images(uris=image_uris)
API 参考:OpenCLIPEmbeddings

检索增强生成的使用

有关如何将此向量存储用于检索增强生成 (RAG) 的指南,请参阅以下部分

API 参考

有关所有 SingleStore 文档加载器功能和配置的详细文档,请访问 GitHub 页面:https://github.com/singlestore-labs/langchain-singlestore/