MyScale

MyScale 是一个基于开源 ClickHouse 构建的云原生数据库，针对AI应用和解决方案进行了优化。

本 Notebook 展示了如何使用与 MyScale 向量数据库相关的功能。

设置环境

%pip install --upgrade --quiet  clickhouse-connect langchain-community

我们希望使用 OpenAIEmbeddings，因此必须获取 OpenAI API 密钥。

import getpass
import os

if "OPENAI_API_KEY" not in os.environ:
    os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")
if "OPENAI_API_BASE" not in os.environ:
    os.environ["OPENAI_API_BASE"] = getpass.getpass("OpenAI Base:")
if "MYSCALE_HOST" not in os.environ:
    os.environ["MYSCALE_HOST"] = getpass.getpass("MyScale Host:")
if "MYSCALE_PORT" not in os.environ:
    os.environ["MYSCALE_PORT"] = getpass.getpass("MyScale Port:")
if "MYSCALE_USERNAME" not in os.environ:
    os.environ["MYSCALE_USERNAME"] = getpass.getpass("MyScale Username:")
if "MYSCALE_PASSWORD" not in os.environ:
    os.environ["MYSCALE_PASSWORD"] = getpass.getpass("MyScale Password:")

有两种方法可以设置 MyScale 索引的参数。

环境变量

在运行应用程序之前，请使用 export 命令设置环境变量：export MYSCALE_HOST='<your-endpoints-url>' MYSCALE_PORT=<your-endpoints-port> MYSCALE_USERNAME=<your-username> MYSCALE_PASSWORD=<your-password> ...

您可以在我们的 SaaS 上轻松找到您的账户、密码及其他信息。更多详情请参考这份文档

MyScaleSettings 下的所有属性都可以通过 MYSCALE_ 前缀进行设置，并且不区分大小写。

使用参数创建 MyScaleSettings 对象

from langchain_community.vectorstores import MyScale, MyScaleSettings
config = MyScaleSetting(host="<your-backend-url>", port=8443, ...)
index = MyScale(embedding_function, config)
index.add_documents(...)

from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import MyScale
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

API 参考：TextLoader | MyScale | OpenAIEmbeddings | CharacterTextSplitter

from langchain_community.document_loaders import TextLoader

loader = TextLoader("../../how_to/state_of_the_union.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

embeddings = OpenAIEmbeddings()

API 参考：TextLoader

for d in docs:
    d.metadata = {"some": "metadata"}
docsearch = MyScale.from_documents(docs, embeddings)

query = "What did the president say about Ketanji Brown Jackson"
docs = docsearch.similarity_search(query)

Inserting data...: 100%|██████████| 42/42 [00:15<00:00,  2.66it/s]

print(docs[0].page_content)

Tonight. I call on the Senate to: Pass the Freedom to Vote Act. Pass the John Lewis Voting Rights Act. And while you’re at it, pass the Disclose Act so Americans can know who is funding our elections. 

Tonight, I’d like to honor someone who has dedicated his life to serve this country: Justice Stephen Breyer—an Army veteran, Constitutional scholar, and retiring Justice of the United States Supreme Court. Justice Breyer, thank you for your service. 

One of the most serious constitutional responsibilities a President has is nominating someone to serve on the United States Supreme Court. 

And I did that 4 days ago, when I nominated Circuit Court of Appeals Judge Ketanji Brown Jackson. One of our nation’s top legal minds, who will continue Justice Breyer’s legacy of excellence.

获取连接信息和数据模式

print(str(docsearch))

筛选

您可以直接访问 MyScale SQL 的 WHERE 语句。您可以按照标准 SQL 编写 WHERE 子句。

注意：请注意 SQL 注入风险，此接口不得由最终用户直接调用。

如果您在设置中自定义了 column_map，您可以使用如下过滤器进行搜索

from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import MyScale

loader = TextLoader("../../how_to/state_of_the_union.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

embeddings = OpenAIEmbeddings()

for i, d in enumerate(docs):
    d.metadata = {"doc_id": i}

docsearch = MyScale.from_documents(docs, embeddings)

API 参考：TextLoader | MyScale

Inserting data...: 100%|██████████| 42/42 [00:15<00:00,  2.68it/s]

带分数的相似性搜索

返回的距离分数是余弦距离。因此，分数越低越好。

meta = docsearch.metadata_column
output = docsearch.similarity_search_with_relevance_scores(
    "What did the president say about Ketanji Brown Jackson?",
    k=4,
    where_str=f"{meta}.doc_id<10",
)
for d, dist in output:
    print(dist, d.metadata, d.page_content[:20] + "...")

229655921459198 {'doc_id': 0} Madam Speaker, Madam...
24506962299346924 {'doc_id': 8} And so many families...
24786919355392456 {'doc_id': 1} Groups of citizens b...
24875116348266602 {'doc_id': 6} And I’m taking robus...

删除您的数据

您可以使用 .drop() 方法删除整个表，也可以使用 .delete() 方法部分删除数据。

# use directly a `where_str` to delete
docsearch.delete(where_str=f"{docsearch.metadata_column}.doc_id < 5")
meta = docsearch.metadata_column
output = docsearch.similarity_search_with_relevance_scores(
    "What did the president say about Ketanji Brown Jackson?",
    k=4,
    where_str=f"{meta}.doc_id<10",
)
for d, dist in output:
    print(dist, d.metadata, d.page_content[:20] + "...")

24506962299346924 {'doc_id': 8} And so many families...
24875116348266602 {'doc_id': 6} And I’m taking robus...
26027143001556396 {'doc_id': 7} We see the unity amo...
26390212774276733 {'doc_id': 9} And unlike the $2 Tr...

docsearch.drop()

向量存储概念指南
向量存储操作指南

设置环境​

获取连接信息和数据模式​

筛选​

带分数的相似性搜索​

删除您的数据​

相关​

设置环境

获取连接信息和数据模式

筛选

带分数的相似性搜索

删除您的数据

相关