路径
Pathway 是一个开放的数据处理框架。它允许您轻松开发使用实时数据源和不断变化的数据的
此笔记本演示了如何将实时 Pathway
数据索引管道与 Langchain
结合使用。您可以以与常规向量存储相同的方式从您的链中查询此管道的结果。
在此笔记本中,我们将使用一个
- 监视多个云数据源以进行数据更改。
- 为数据构建向量索引。
要拥有自己的文档处理管道,请查看
我们将使用 VectorStore
客户端连接到索引,该客户端实现 similarity_search
函数以检索匹配的文档。
本文件中使用的基本管道允许轻松构建存储在云位置中的文件的简单向量索引。
您需要使用 pip install -qU langchain-community
安装 langchain-community
才能使用此集成
查询数据管道
要实例化和配置客户端,您需要提供文档索引管道的 url
或 host
和 port
。
from langchain_community.vectorstores import PathwayVectorClient
client = PathwayVectorClient(url="https://demo-document-indexing.pathway.stream")
API 参考:PathwayVectorClient
我们可以开始询问查询
query = "What is Pathway?"
docs = client.similarity_search(query)
print(docs[0].page_content)
轮到您了!
基于文件元数据过滤
我们支持使用
# take into account only sources modified later than unix timestamp
docs = client.similarity_search(query, metadata_filter="modified_at >= `1702672093`")
# take into account only sources modified later than unix timestamp
docs = client.similarity_search(query, metadata_filter="owner == `james`")
# take into account only sources with path containing 'repo_readme'
docs = client.similarity_search(query, metadata_filter="contains(path, 'repo_readme')")
# and of two conditions
docs = client.similarity_search(
query, metadata_filter="owner == `james` && modified_at >= `1702672093`"
)
# or of two conditions
docs = client.similarity_search(
query, metadata_filter="owner == `james` || modified_at >= `1702672093`"
)
获取有关索引文件的
PathwayVectorClient.get_vectorstore_statistics()
提供有关向量存储状态的基本统计信息,
client.get_vectorstore_statistics()
您自己的管道
在生产中运行
要拥有自己的 Pathway 数据索引管道,请查看 Pathway 的
处理文档
向量化管道支持可插拔组件,用于解析、拆分和嵌入文档。
相关
- 向量存储
- 向量存储