检索器

A 检索器是一种接口，根据非结构化查询返回文档。它比向量存储更通用。检索器不需要能够存储文档，只需要返回（或检索）它们。检索器可以从向量存储中创建，但其范围也足够广泛，可以包括维基百科搜索和Amazon Kendra。

检索器接受字符串查询作为输入，并返回一个文档列表作为输出。

有关如何使用检索器的具体信息，请参阅此处的相关操作指南。

请注意，所有向量存储都可以转换为检索器。有关可用向量存储，请参阅向量存储集成文档。本页面列出了通过继承BaseRetriever实现的自定义检索器。

自带文档

以下检索器允许您索引和搜索自定义文档语料库。

检索器	自托管	云服务	包
AmazonKnowledgeBasesRetriever	❌	✅	langchain_aws
AzureAISearchRetriever	❌	✅	langchain_community
ElasticsearchRetriever	✅	✅	langchain_elasticsearch
VertexAISearchRetriever	❌	✅	langchain_google_community

外部索引

以下检索器将搜索外部索引（例如，从互联网数据或类似来源构建的）。

检索器	来源	包
ArxivRetriever	arxiv.org 上的学术文章	langchain_community
TavilySearchAPIRetriever	互联网搜索	langchain_community
WikipediaRetriever	维基百科文章	langchain_community

所有检索器

注意：下表中的描述为便于阅读已截断。

名称	描述
Activeloop Deep Memory	Activeloop Deep Memory 是一套工具，可帮助您优化...
亚马逊 Kendra	Amazon Kendra 是亚马逊网络服务提供的一项智能搜索服务...
Arcee	Arcee 协助开发 SLM——小型、专业、安全的...
Arxiv	arXiv 是一个开放获取的档案库，包含 200 万篇学术文章...
AskNews	AskNews 为任何 LLM 注入最新的全球新闻（或历史新闻...
Azure AI 搜索	Azure AI Search（以前称为 Azure Cognitive Search）是微软的...
Bedrock (知识库)	本指南将帮助您开始使用 AWS 知识库检索器...
BM25	BM25 (Wikipedia)，也称为 Okapi BM25，是一种排序函数...
Box	这将帮助您开始使用 Box 检索器。有关详细信息...
BREEBS (开放知识)	BREEBS 是一个开放的协作知识平台。
Chaindesk	Chaindesk 平台可从任何地方获取数据（数据源：文本、PDF...
ChatGPT 插件	OpenAI 插件将 ChatGPT 连接到第三方应用程序。这些插...
Cognee	这将帮助您开始使用 Cognee 检索器。有关详细信息...
Cohere 重排序器	Cohere 是一家提供自然语言处理服务的加拿大初创公司...
Cohere RAG	Cohere 是一家提供自然语言处理服务的加拿大初创公司...
Contextual AI 重排序器	Contextual AI 的指令遵循重排序器是世界上第一个重...
Dappier	Dappier 将任何 LLM 或您的 Agentic AI 连接到实时、权利清晰的...
DocArray	DocArray 是一个多功能、开源工具，用于管理您的多模态...
Dria	Dria 是一个公共 RAG 模型中心，供开发人员贡献和...
ElasticSearch BM25	Elasticsearch 是一个分布式、RESTful 搜索和分析引擎...
Elasticsearch	Elasticsearch 是一个分布式、RESTful 搜索和分析引擎...
Embedchain	Embedchain 是一个用于创建数据管道的 RAG 框架。它加载、索引...
FlashRank 重排序器	FlashRank 是一个超轻量级、超快速的 Python 库，用于添加重排...
Fleet AI 上下文	Fleet AI Context 是一个包含前 1000 个高质量嵌入的数据集...
Galaxia	Galaxia 是 GraphRAG 解决方案，可自动化文档处理、知识...
谷歌云端硬盘	本笔记介绍了如何从 Google Drive 检索文档。
谷歌 Vertex AI 搜索	Google Vertex AI Search（以前称为 Enterprise Search on Gener...
Graph RAG	使用文档元数据对任何向量存储进行图遍历。
GreenNode	GreenNode 是一家全球 AI 解决方案提供商，也是英伟达的首选合作伙伴...
IBM watsonx.ai	WatsonxRerank 是 IBM watsonx.ai 基础模型的封装器。
JaguarDB 向量数据库	[JaguarDB 向量数据库](http://www.jaguardb.com/windex.html
Kay.ai	Kai Data API 专为 RAG 构建 🕵️ 我们正在整理世界上最大的数据...
Kinetica 向量存储检索器	Kinetica 是一个数据库，集成了对向量相似度搜索的支持...
kNN	在统计学中，k-近邻算法（k-NN）是一种非参数的...
LinkupSearchRetriever	Linkup 提供了一个 API，可将 LLM 连接到网络和 Linkup Prem...
LLMLingua 文档压缩器	LLMLingua 利用紧凑、训练有素的语言模型（例如 GPT2...
LOTR (合并检索器)	检索器之王（LOTR），也称为 MergerRetriever，它采用...
Metal	Metal 是一种用于机器学习嵌入的托管服务。
NanoPQ (产品量化)	产品量化算法（k-NN）简而言之是一种量化算法...
Nebius	NebiusRetriever 能够使用嵌入实现高效的相似性搜索...
needle	Needle 检索器
Nimble	NimbleSearchRetriever 使开发人员能够构建 RAG 应用程序和...
Outline	Outline 是一个开源协作知识库平台，设计用于...
Permit	Permit 是一个访问控制平台，提供细粒度、实时的...
Pinecone 混合搜索	Pinecone 是一个功能广泛的向量数据库。
Pinecone 重排序	本笔记展示了如何使用 PineconeRerank 进行两阶段向量重排...
PubMed	PubMed®，由美国国家生物技术信息中心提供...
Qdrant 稀疏向量	Qdrant 是一个开源、高性能的向量搜索引擎/数据库...
RAGatouille	RAGatouille 让 ColBERT 的使用变得无比简单！
RePhraseQuery	RePhraseQuery 是一个简单的检索器，它在用户输入和 LLM 之间应用...
Rememberizer	Rememberizer 是一种用于 AI 应用程序的知识增强服务，可用于...
SEC 文件	SEC 文件是提交给美国证券交易委员会的财务报表或其他正式文件...
自查询检索器
SVM	支持向量机 (SVM) 是一组监督学习方法...
TavilySearchAPI	Tavily 的搜索 API 是一个专门为 AI 代理构建的搜索引擎...
TF-IDF	TF-IDF 指的是词频-逆文档频率。
NeuralDB	NeuralDB 是一个 CPU 友好且可微调的检索引擎，开发用于...
ValyuContext	Valyu 允许 AI 应用程序和代理搜索互联网并提供...
Vectorize	本笔记展示了如何使用 LangChain Vectorize 检索器。
Vespa	Vespa 是一个功能齐全的搜索引擎和向量数据库。它支持...
维基百科	维基百科是一个多语言的免费在线百科全书，由...
You.com	you.com API 是一套工具，旨在帮助开发人员将...
Zep 云	Zep Cloud 的检索器示例
Zep 开源	Zep 的检索器示例
Zilliz 云管道	Zilliz Cloud Pipelines 将您的非结构化数据转换为可搜索的...
Zotero	这将帮助您开始使用 Zotero 检索器。有关详细信息...

自带文档​

外部索引​

所有检索器​

自带文档

外部索引

所有检索器