Astra DB 向量数据库

此页面提供了一个快速入门指南，用于将Astra DB用作向量存储。

DataStax Astra DB 是一个基于 Apache Cassandra® 的无服务器向量数据库，并通过易于使用的 JSON API 方便地提供。

设置

使用此集成需要 langchain-astradb 合作伙伴包

pip install -qU "langchain-astradb>=0.3.3"

凭据

要使用 AstraDB 向量存储，您必须首先访问AstraDB 网站，创建一个帐户，然后创建一个新的数据库 - 初始化可能需要几分钟。

数据库初始化完成后，您应该创建一个应用程序令牌并将其保存以供以后使用。

您还需要从“数据库详细信息”中复制API 端点，并将其存储在ASTRA_DB_API_ENDPOINT变量中。

您可以选择提供命名空间，您可以从数据库仪表板的“数据资源管理器”选项卡中管理它。如果您不想设置命名空间，可以将ASTRA_DB_NAMESPACE的getpass提示留空。

import getpass

ASTRA_DB_API_ENDPOINT = getpass.getpass("ASTRA_DB_API_ENDPOINT = ")
ASTRA_DB_APPLICATION_TOKEN = getpass.getpass("ASTRA_DB_APPLICATION_TOKEN = ")

desired_namespace = getpass.getpass("ASTRA_DB_NAMESPACE = ")
if desired_namespace:
    ASTRA_DB_NAMESPACE = desired_namespace
else:
    ASTRA_DB_NAMESPACE = None

如果您希望获得一流的模型调用自动跟踪，还可以设置您的LangSmith API 密钥，方法是取消以下注释

# os.environ["LANGSMITH_API_KEY"] = getpass.getpass("Enter your LangSmith API key: ")
# os.environ["LANGSMITH_TRACING"] = "true"

初始化

有两种方法可以创建 Astra DB 向量存储，它们在嵌入的计算方式上有所不同。

方法 1：显式嵌入

您可以分别实例化一个langchain_core.embeddings.Embeddings类并将其传递给AstraDBVectorStore构造函数，就像大多数其他 LangChain 向量存储一样。

方法 2：集成嵌入计算

或者，您可以使用 Astra DB 的Vectorize功能，并在创建存储时简单地指定受支持的嵌入模型的名称。嵌入计算完全在数据库内处理。（要使用此方法，您必须为您的数据库启用所需的嵌入集成，如文档中所述。）

显式嵌入初始化

下面，我们使用显式嵌入类实例化我们的向量存储

OpenAI
HuggingFace
伪嵌入

pip install -qU langchain-openai

import getpass

    os.environ["OPENAI_API_KEY"] = getpass.getpass()

from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model="text-embedding-3-large")

pip install -qU langchain-huggingface

from langchain_huggingface import HuggingFaceEmbeddings

embeddings = HuggingFaceEmbeddings(model="sentence-transformers/all-mpnet-base-v2")

pip install -qU langchain-core

from langchain_core.embeddings import FakeEmbeddings

embeddings = FakeEmbeddings(size=4096)

from langchain_astradb import AstraDBVectorStore

vector_store = AstraDBVectorStore(
    collection_name="astra_vector_langchain",
    embedding=embeddings,
    api_endpoint=ASTRA_DB_API_ENDPOINT,
    token=ASTRA_DB_APPLICATION_TOKEN,
    namespace=ASTRA_DB_NAMESPACE,
)

API 参考：AstraDBVectorStore

集成嵌入初始化

这里假设您已

在您的 Astra DB 组织中启用了 OpenAI 集成，
向集成中添加了一个名为"OPENAI_API_KEY"的 API 密钥，并将其范围限定为您正在使用的数据库。

有关如何执行此操作的更多详细信息，请参阅文档。

from astrapy.info import CollectionVectorServiceOptions

openai_vectorize_options = CollectionVectorServiceOptions(
    provider="openai",
    model_name="text-embedding-3-small",
    authentication={
        "providerKey": "OPENAI_API_KEY",
    },
)

vector_store_integrated = AstraDBVectorStore(
    collection_name="astra_vector_langchain_integrated",
    api_endpoint=ASTRA_DB_API_ENDPOINT,
    token=ASTRA_DB_APPLICATION_TOKEN,
    namespace=ASTRA_DB_NAMESPACE,
    collection_vector_service_options=openai_vectorize_options,
)

管理向量存储

创建向量存储后，我们可以通过添加和删除不同的项目来与之交互。

将项目添加到向量存储

我们可以使用add_documents函数将项目添加到我们的向量存储中。

from uuid import uuid4

from langchain_core.documents import Document

document_1 = Document(
    page_content="I had chocalate chip pancakes and scrambled eggs for breakfast this morning.",
    metadata={"source": "tweet"},
)

document_2 = Document(
    page_content="The weather forecast for tomorrow is cloudy and overcast, with a high of 62 degrees.",
    metadata={"source": "news"},
)

document_3 = Document(
    page_content="Building an exciting new project with LangChain - come check it out!",
    metadata={"source": "tweet"},
)

document_4 = Document(
    page_content="Robbers broke into the city bank and stole $1 million in cash.",
    metadata={"source": "news"},
)

document_5 = Document(
    page_content="Wow! That was an amazing movie. I can't wait to see it again.",
    metadata={"source": "tweet"},
)

document_6 = Document(
    page_content="Is the new iPhone worth the price? Read this review to find out.",
    metadata={"source": "website"},
)

document_7 = Document(
    page_content="The top 10 soccer players in the world right now.",
    metadata={"source": "website"},
)

document_8 = Document(
    page_content="LangGraph is the best framework for building stateful, agentic applications!",
    metadata={"source": "tweet"},
)

document_9 = Document(
    page_content="The stock market is down 500 points today due to fears of a recession.",
    metadata={"source": "news"},
)

document_10 = Document(
    page_content="I have a bad feeling I am going to get deleted :(",
    metadata={"source": "tweet"},
)

documents = [
    document_1,
    document_2,
    document_3,
    document_4,
    document_5,
    document_6,
    document_7,
    document_8,
    document_9,
    document_10,
]
uuids = [str(uuid4()) for _ in range(len(documents))]

vector_store.add_documents(documents=documents, ids=uuids)

API 参考：Document

[UUID('89a5cea1-5f3d-47c1-89dc-7e36e12cf4de'),
 UUID('d4e78c48-f954-4612-8a38-af22923ba23b'),
 UUID('058e4046-ded0-4fc1-b8ac-60e5a5f08ea0'),
 UUID('50ab2a9a-762c-4b78-b102-942a86d77288'),
 UUID('1da5a3c1-ba51-4f2f-aaaf-79a8f5011ce3'),
 UUID('f3055d9e-2eb1-4d25-838e-2c70548f91b5'),
 UUID('4bf0613d-08d0-4fbc-a43c-4955e4c9e616'),
 UUID('18008625-8fd4-45c2-a0d7-92a2cde23dbc'),
 UUID('c712e06f-790b-4fd4-9040-7ab3898965d0'),
 UUID('a9b84820-3445-4810-a46c-e77b76ab85bc')]

从向量存储中删除项目

我们可以使用delete函数按 ID 从我们的向量存储中删除项目。

vector_store.delete(ids=uuids[-1])

True

查询向量存储

创建向量存储并添加相关文档后，您很可能希望在运行链或代理时查询它。

直接查询

相似性搜索

执行简单的相似性搜索以及对元数据进行过滤可以按如下方式进行

results = vector_store.similarity_search(
    "LangChain provides abstractions to make working with LLMs easy",
    k=2,
    filter={"source": "tweet"},
)
for res in results:
    print(f"* {res.page_content} [{res.metadata}]")

* Building an exciting new project with LangChain - come check it out! [{'source': 'tweet'}]
* LangGraph is the best framework for building stateful, agentic applications! [{'source': 'tweet'}]

带分数的相似性搜索

您还可以使用分数进行搜索

results = vector_store.similarity_search_with_score(
    "Will it be hot tomorrow?", k=1, filter={"source": "news"}
)
for res, score in results:
    print(f"* [SIM={score:3f}] {res.page_content} [{res.metadata}]")

* [SIM=0.776585] The weather forecast for tomorrow is cloudy and overcast, with a high of 62 degrees. [{'source': 'news'}]

其他搜索方法

还有许多其他搜索方法未在本笔记本中介绍，例如 MMR 搜索或按向量搜索。有关AstraDBVectorStore可用的所有搜索功能的完整列表，请查看API 参考。

通过转换为检索器进行查询

您还可以将向量存储转换为检索器，以便在您的链中更容易使用。

以下是将向量存储转换为检索器，然后使用简单的查询和过滤器调用检索器的方法。

retriever = vector_store.as_retriever(
    search_type="similarity_score_threshold",
    search_kwargs={"k": 1, "score_threshold": 0.5},
)
retriever.invoke("Stealing from the bank is a crime", filter={"source": "news"})

[Document(metadata={'source': 'news'}, page_content='Robbers broke into the city bank and stole $1 million in cash.')]

用于检索增强生成的使用

有关如何将此向量存储用于检索增强生成 (RAG) 的指南，请参阅以下部分

有关更多信息，请查看此处使用 Astra DB 的完整 RAG 模板此处。

清理向量存储

如果您想完全从您的 Astra DB 实例中删除集合，请运行此操作。

（您将丢失存储在其中的数据。）

vector_store.delete_collection()

API 参考

有关所有AstraDBVectorStore功能和配置的详细文档，请访问 API 参考：https://python.langchain.ac.cn/v0.2/api_reference/astradb/vectorstores/langchain_astradb.vectorstores.AstraDBVectorStore.html

向量数据库概念指南
向量数据库操作指南

Astra DB 向量数据库

设置

凭据

初始化

方法 1：显式嵌入

方法 2：集成嵌入计算

显式嵌入初始化

集成嵌入初始化

管理向量存储

将项目添加到向量存储

从向量存储中删除项目

查询向量存储

直接查询

相似性搜索

带分数的相似性搜索

其他搜索方法

通过转换为检索器进行查询

用于检索增强生成的使用

清理向量存储

API 参考

此页面是否有帮助？

您也可以留下详细的反馈在 GitHub 上.

Astra DB 向量数据库

设置​

凭据​

初始化​

方法 1：显式嵌入​

方法 2：集成嵌入计算​

显式嵌入初始化​

集成嵌入初始化​

管理向量存储​

将项目添加到向量存储​

从向量存储中删除项目​

查询向量存储​

直接查询​

相似性搜索​

带分数的相似性搜索​

其他搜索方法​

通过转换为检索器进行查询​

用于检索增强生成的使用​

清理向量存储​

API 参考​

相关​

此页面是否有帮助？

您也可以留下详细的反馈 在 GitHub 上.

设置

凭据

初始化

方法 1：显式嵌入

方法 2：集成嵌入计算

显式嵌入初始化

集成嵌入初始化

管理向量存储

将项目添加到向量存储

从向量存储中删除项目

查询向量存储

直接查询

相似性搜索

带分数的相似性搜索

其他搜索方法

通过转换为检索器进行查询

用于检索增强生成的使用

清理向量存储

API 参考

相关

您也可以留下详细的反馈在 GitHub 上.