Google Cloud SQL for MySQL

Cloud SQL 是一款全托管的关系型数据库服务，提供高性能、无缝集成和出色的可扩展性。它提供 PostgreSQL、MySQL 和 SQL Server 数据库引擎。扩展您的数据库应用程序以利用 Cloud SQL 的 LangChain 集成构建 AI 支持的体验。

此笔记本介绍如何使用 Cloud SQL for MySQL 通过 MySQLVectorStore 类存储向量嵌入。

在 GitHub 上了解有关此包的更多信息。

开始之前

要运行此笔记本，您需要执行以下操作

创建一个 Google Cloud 项目
启用 Cloud SQL Admin API。
创建一个 Cloud SQL 实例。 (版本必须为 >= 8.0.36，且 cloudsql_vector 数据库标志配置为“开启”)
创建一个 Cloud SQL 数据库。
向数据库添加用户。

🦜🔗 库安装

安装集成库 langchain-google-cloud-sql-mysql 和用于嵌入服务的库 langchain-google-vertexai。

%pip install --upgrade --quiet langchain-google-cloud-sql-mysql langchain-google-vertexai

仅限 Colab： 解开以下单元格以重新启动内核，或使用按钮重新启动内核。对于 Vertex AI Workbench，您可以使用顶部的按钮重新启动终端。

# # Automatically restart kernel after installs so that your environment can access the new packages
# import IPython

# app = IPython.Application.instance()
# app.kernel.do_shutdown(True)

🔐 身份验证

以登录到此笔记本的 IAM 用户身份对 Google Cloud 进行身份验证，以便访问您的 Google Cloud 项目。

如果您使用 Colab 运行此笔记本，请使用以下单元格并继续。
如果您使用 Vertex AI Workbench，请查看设置说明此处。

from google.colab import auth

auth.authenticate_user()

☁ 设置您的 Google Cloud 项目

设置您的 Google Cloud 项目，以便您可以在此笔记本中利用 Google Cloud 资源。

如果您不知道您的项目 ID，请尝试以下操作

运行 gcloud config list。
运行 gcloud projects list。
查看支持页面：查找项目 ID。

# @markdown Please fill in the value below with your Google Cloud project ID and then run the cell.

PROJECT_ID = "my-project-id"  # @param {type:"string"}

# Set the project id
!gcloud config set project {PROJECT_ID}

基本用法

设置 Cloud SQL 数据库值

在 Cloud SQL 实例页面中找到您的数据库值。

注意： MySQL 向量支持仅在版本为 >= 8.0.36 的 MySQL 实例上可用。

对于现有实例，您可能需要执行自助式维护更新以将您的维护版本更新为 MYSQL_8_0_36.R20240401.03_00 或更高版本。更新后，配置您的数据库标志使新的 cloudsql_vector 标志为“开启”。

# @title Set Your Values Here { display-mode: "form" }
REGION = "us-central1"  # @param {type: "string"}
INSTANCE = "my-mysql-instance"  # @param {type: "string"}
DATABASE = "my-database"  # @param {type: "string"}
TABLE_NAME = "vector_store"  # @param {type: "string"}

MySQLEngine 连接池

将 Cloud SQL 设置为向量存储的其中一项要求和参数是 MySQLEngine 对象。MySQLEngine 配置与 Cloud SQL 数据库的连接池，使您的应用程序能够成功连接并遵循行业最佳实践。

要使用 MySQLEngine.from_instance() 创建 MySQLEngine，您只需要提供 4 个内容

project_id：Google Cloud 项目的项目 ID，其中包含 Cloud SQL 实例。
region：Cloud SQL 实例所在的区域。
instance：Cloud SQL 实例的名称。
database：要在 Cloud SQL 实例上连接的数据库的名称。

默认情况下，将使用 IAM 数据库身份验证作为数据库身份验证方法。此库使用属于来自环境的应用程序默认凭据 (ADC) 的 IAM 主体。

有关 IAM 数据库身份验证的更多信息，请参见

或者，可以使用内置数据库身份验证，使用用户名和密码访问 Cloud SQL 数据库。只需向 MySQLEngine.from_instance() 提供可选的 user 和 password 参数即可

user：用于内置数据库身份验证和登录的数据库用户
password：用于内置数据库身份验证和登录的数据库密码。

from langchain_google_cloud_sql_mysql import MySQLEngine

engine = MySQLEngine.from_instance(
    project_id=PROJECT_ID, region=REGION, instance=INSTANCE, database=DATABASE
)

初始化表

MySQLVectorStore 类需要一个数据库表。MySQLEngine 类有一个辅助方法 init_vectorstore_table()，可用于为您创建具有正确架构的表。

engine.init_vectorstore_table(
    table_name=TABLE_NAME,
    vector_size=768,  # Vector size for VertexAI model(textembedding-gecko@latest)
)

创建嵌入类实例

您可以使用任何 LangChain 嵌入模型。您可能需要启用 Vertex AI API 才能使用 VertexAIEmbeddings。

我们建议为生产环境固定嵌入模型的版本，了解有关文本嵌入模型的更多信息。

# enable Vertex AI API
!gcloud services enable aiplatform.googleapis.com

from langchain_google_vertexai import VertexAIEmbeddings

embedding = VertexAIEmbeddings(
    model_name="textembedding-gecko@latest", project=PROJECT_ID
)

初始化默认的 MySQLVectorStore

要初始化 MySQLVectorStore 类，您只需要提供 3 个内容

engine - MySQLEngine 引擎的实例。
embedding_service - LangChain 嵌入模型的实例。
table_name：要在 Cloud SQL 数据库中用作向量存储的表的名称。

from langchain_google_cloud_sql_mysql import MySQLVectorStore

store = MySQLVectorStore(
    engine=engine,
    embedding_service=embedding,
    table_name=TABLE_NAME,
)

添加文本

import uuid

all_texts = ["Apples and oranges", "Cars and airplanes", "Pineapple", "Train", "Banana"]
metadatas = [{"len": len(t)} for t in all_texts]
ids = [str(uuid.uuid4()) for _ in all_texts]

store.add_texts(all_texts, metadatas=metadatas, ids=ids)

删除文本

通过 ID 从向量存储中删除向量。

store.delete([ids[1]])

搜索文档

query = "I'd like a fruit."
docs = store.similarity_search(query)
print(docs[0].page_content)

Pineapple

通过向量搜索文档

也可以使用 similarity_search_by_vector 对与给定嵌入向量相似的文档进行搜索，该方法接受嵌入向量作为参数，而不是字符串。

query_vector = embedding.embed_query(query)
docs = store.similarity_search_by_vector(query_vector, k=2)
print(docs)

[Document(page_content='Pineapple', metadata={'len': 9}), Document(page_content='Banana', metadata={'len': 6})]

添加索引

通过应用向量索引来加快向量搜索查询的速度。了解有关 MySQL 向量索引的更多信息。

注意：对于 IAM 数据库身份验证（默认使用情况），需要由特权数据库用户为 IAM 数据库用户授予以下权限，以便完全控制向量索引。

GRANT EXECUTE ON PROCEDURE mysql.create_vector_index TO '<IAM_DB_USER>'@'%';
GRANT EXECUTE ON PROCEDURE mysql.alter_vector_index TO '<IAM_DB_USER>'@'%';
GRANT EXECUTE ON PROCEDURE mysql.drop_vector_index TO '<IAM_DB_USER>'@'%';
GRANT SELECT ON mysql.vector_indexes TO '<IAM_DB_USER>'@'%';

from langchain_google_cloud_sql_mysql import VectorIndex

store.apply_vector_index(VectorIndex())

删除索引

store.drop_vector_index()

高级用法

使用自定义元数据创建 MySQLVectorStore

向量存储可以利用关系数据来过滤相似性搜索。

创建具有自定义元数据列的表和 MySQLVectorStore 实例。

from langchain_google_cloud_sql_mysql import Column

# set table name
CUSTOM_TABLE_NAME = "vector_store_custom"

engine.init_vectorstore_table(
    table_name=CUSTOM_TABLE_NAME,
    vector_size=768,  # VertexAI model: textembedding-gecko@latest
    metadata_columns=[Column("len", "INTEGER")],
)


# initialize MySQLVectorStore with custom metadata columns
custom_store = MySQLVectorStore(
    engine=engine,
    embedding_service=embedding,
    table_name=CUSTOM_TABLE_NAME,
    metadata_columns=["len"],
    # connect to an existing VectorStore by customizing the table schema:
    # id_column="uuid",
    # content_column="documents",
    # embedding_column="vectors",
)

使用元数据过滤器搜索文档

在使用文档之前，缩小文档范围可能会有所帮助。

例如，可以使用 filter 参数根据元数据过滤文档。

import uuid

# add texts to the vector store
all_texts = ["Apples and oranges", "Cars and airplanes", "Pineapple", "Train", "Banana"]
metadatas = [{"len": len(t)} for t in all_texts]
ids = [str(uuid.uuid4()) for _ in all_texts]
custom_store.add_texts(all_texts, metadatas=metadatas, ids=ids)

# use filter on search
query_vector = embedding.embed_query("I'd like a fruit.")
docs = custom_store.similarity_search_by_vector(query_vector, filter="len >= 6")

print(docs)

[Document(page_content='Pineapple', metadata={'len': 9}), Document(page_content='Banana', metadata={'len': 6}), Document(page_content='Apples and oranges', metadata={'len': 18}), Document(page_content='Cars and airplanes', metadata={'len': 18})]

向量存储概念指南
向量存储操作指南

Google Cloud SQL for MySQL

开始之前

🦜🔗 库安装

🔐 身份验证

☁ 设置您的 Google Cloud 项目

基本用法

设置 Cloud SQL 数据库值

MySQLEngine 连接池

初始化表

创建嵌入类实例

初始化默认的 MySQLVectorStore

添加文本

删除文本

搜索文档

通过向量搜索文档

添加索引

删除索引

高级用法

使用自定义元数据创建 MySQLVectorStore

使用元数据过滤器搜索文档

此页面对您有帮助吗？

您也可以留下详细的反馈在 GitHub 上.

Google Cloud SQL for MySQL

开始之前​

🦜🔗 库安装​

🔐 身份验证​

☁ 设置您的 Google Cloud 项目​

基本用法​

设置 Cloud SQL 数据库值​

MySQLEngine 连接池​

初始化表​

创建嵌入类实例​

初始化默认的 MySQLVectorStore​

添加文本​

删除文本​

搜索文档​

通过向量搜索文档​

添加索引​

删除索引​

高级用法​

使用自定义元数据创建 MySQLVectorStore​

使用元数据过滤器搜索文档​

相关​

此页面对您有帮助吗？

您也可以留下详细的反馈 在 GitHub 上.

开始之前

🦜🔗 库安装

🔐 身份验证

☁ 设置您的 Google Cloud 项目

基本用法

设置 Cloud SQL 数据库值

MySQLEngine 连接池

初始化表

创建嵌入类实例

初始化默认的 MySQLVectorStore

添加文本

删除文本

搜索文档

通过向量搜索文档

添加索引

删除索引

高级用法

使用自定义元数据创建 MySQLVectorStore

使用元数据过滤器搜索文档

相关

您也可以留下详细的反馈在 GitHub 上.