跳到主要内容

检索器

概述

存在许多不同类型的检索系统,包括向量存储、图数据库和关系数据库。随着大型语言模型的普及,检索系统已成为人工智能应用的重要组成部分(例如,RAG)。由于其重要性和多样性,LangChain 为与不同类型的检索系统交互提供了一个统一的接口。LangChain 的 检索器接口非常简单

  1. 输入:一个查询(字符串)
  2. 输出:一个文档列表(标准化的 LangChain Document 对象)

关键概念

Retriever

所有检索器都实现了一个简单的接口,用于使用自然语言查询检索文档。

接口

检索器的唯一要求是能够接受查询并返回文档。特别是,LangChain 的检索器类仅要求实现 _get_relevant_documents 方法,该方法接受一个 query: str 并返回与查询最相关的 Document 对象列表。用于获取相关文档的底层逻辑由检索器指定,并且可以是对于应用程序最有用的任何内容。

LangChain 检索器是一个 可运行对象,它是 LangChain 组件的标准接口。这意味着它具有一些常用的方法,包括用于与之交互的 invoke。可以使用查询来调用检索器

docs = retriever.invoke(query)

检索器返回一个 Document 对象列表,这些对象具有两个属性

  • page_content:此文档的内容。目前是一个字符串。
  • metadata:与此文档关联的任意元数据(例如,文档 ID、文件名、来源等)。
进一步阅读
  • 请参阅我们的操作指南,了解如何构建自己的自定义检索器。

常见类型

尽管检索器接口具有灵活性,但经常使用一些常见类型的检索系统。

搜索 API

重要的是要注意,检索器实际上不需要存储文档。例如,我们可以在搜索 API 之上构建检索器,这些 API 只返回搜索结果!请参阅我们与 Amazon Kendra维基百科搜索的检索器集成。

关系数据库或图数据库

可以在关系数据库或图数据库之上构建检索器。在这些情况下,使用 查询分析技术从自然语言构造结构化查询至关重要。例如,您可以使用文本到 SQL 转换为 SQL 数据库构建检索器。这允许将自然语言查询(字符串)检索器在幕后转换为 SQL 查询。

进一步阅读
  • 请参阅我们的 教程,了解如何使用 SQL 数据库和文本到 SQL 构建检索器。
  • 请参阅我们的 教程,了解如何使用图数据库和文本到 Cypher 构建检索器。

正如我们在 检索的概念回顾中所讨论的那样,许多搜索引擎都基于将查询中的单词与每个文档中的单词进行匹配。BM25TF-IDF两种流行的词法搜索算法。LangChain 具有用于许多流行词法搜索算法/引擎的检索器。

进一步阅读

向量存储

向量存储是一种索引和检索非结构化数据的强大而有效的方法。通过调用 as_retriever() 方法,可以将向量存储用作检索器。

vectorstore = MyVectorStore()
retriever = vectorstore.as_retriever()

高级检索模式

集成

由于检索器接口非常简单,给定搜索查询返回一个 Document 对象列表,因此可以使用集成来组合多个检索器。当您有多个擅长查找不同类型相关文档的检索器时,这尤其有用。可以轻松创建一个集成检索器,它将多个检索器与线性加权分数相结合

# Initialize the ensemble retriever
ensemble_retriever = EnsembleRetriever(
retrievers=[bm25_retriever, vector_store_retriever], weights=[0.5, 0.5]
)

在集成时,我们如何组合来自多个检索器的搜索结果?这引发了重新排序的概念,它采用多个检索器的输出,并使用更复杂的算法(如 倒数排名融合 (RRF))组合它们。

源文档保留

许多检索器利用某种索引来使文档易于搜索。索引过程可以包括转换步骤(例如,向量存储通常使用文档拆分)。无论使用什么转换,保留转换后的文档和原始文档之间的链接都可能非常有用,从而使检索器能够返回原始文档。

Retrieval with full docs

这在人工智能应用程序中尤其有用,因为它确保了模型不会丢失文档上下文。例如,您可以使用较小的块大小在向量存储中索引文档。如果仅返回这些块作为检索结果,则模型将丢失这些块的原始文档上下文。

LangChain 有两种不同的检索器可用于解决此挑战。多向量检索器允许用户使用任何文档转换(例如,使用 LLM 编写文档摘要)进行索引,同时保留与源文档的链接。ParentDocument 检索器链接来自文本拆分器转换的文档块以进行索引,同时保留与源文档的链接。

名称索引类型是否使用 LLM何时使用描述
ParentDocument向量存储 + 文档存储如果您的页面包含许多最好单独索引,但最好一起检索的不同信息片段。这涉及为每个文档索引多个块。然后,您找到嵌入空间中最相似的块,但您检索整个父文档并返回它(而不是单个块)。
多向量向量存储 + 文档存储有时在索引期间如果您能够从文档中提取您认为比文本本身更适合索引的信息。这涉及为每个文档创建多个向量。每个向量都可以通过多种方式创建 - 示例包括文本摘要和假设性问题。
进一步阅读
  • 请参阅我们的操作指南,了解如何使用 ParentDocument 检索器。
  • 请参阅我们的操作指南,了解如何使用 MultiVector 检索器。
  • 请观看我们从零开始的 RAG 视频,了解多向量检索器

此页面是否有帮助?