跳到主要内容
Open on GitHub

检索器

A 检索器是一种接口,根据非结构化查询返回文档。它比向量存储更通用。检索器不需要能够存储文档,只需要返回(或检索)它们。检索器可以从向量存储中创建,但其范围也足够广泛,可以包括维基百科搜索Amazon Kendra

检索器接受字符串查询作为输入,并返回一个文档列表作为输出。

有关如何使用检索器的具体信息,请参阅此处的相关操作指南

请注意,所有向量存储都可以转换为检索器。有关可用向量存储,请参阅向量存储集成文档。本页面列出了通过继承BaseRetriever实现的自定义检索器。

自带文档

以下检索器允许您索引和搜索自定义文档语料库。

检索器自托管云服务
AmazonKnowledgeBasesRetrieverlangchain_aws
AzureAISearchRetrieverlangchain_community
ElasticsearchRetrieverlangchain_elasticsearch
VertexAISearchRetrieverlangchain_google_community

外部索引

以下检索器将搜索外部索引(例如,从互联网数据或类似来源构建的)。

检索器来源
ArxivRetrieverarxiv.org 上的学术文章langchain_community
TavilySearchAPIRetriever互联网搜索langchain_community
WikipediaRetriever维基百科文章langchain_community

所有检索器

注意:下表中的描述为便于阅读已截断。

名称描述
Activeloop Deep MemoryActiveloop Deep Memory 是一套工具,可帮助您优化...
亚马逊 KendraAmazon Kendra 是亚马逊网络服务提供的一项智能搜索服务...
ArceeArcee 协助开发 SLM——小型、专业、安全的...
ArxivarXiv 是一个开放获取的档案库,包含 200 万篇学术文章...
AskNewsAskNews 为任何 LLM 注入最新的全球新闻(或历史新闻...
Azure AI 搜索Azure AI Search(以前称为 Azure Cognitive Search)是微软的...
Bedrock (知识库)本指南将帮助您开始使用 AWS 知识库检索器...
BM25BM25 (Wikipedia),也称为 Okapi BM25,是一种排序函数...
Box这将帮助您开始使用 Box 检索器。有关详细信息...
BREEBS (开放知识)BREEBS 是一个开放的协作知识平台。
ChaindeskChaindesk 平台可从任何地方获取数据(数据源:文本、PDF...
ChatGPT 插件OpenAI 插件将 ChatGPT 连接到第三方应用程序。这些插...
Cognee这将帮助您开始使用 Cognee 检索器。有关详细信息...
Cohere 重排序器Cohere 是一家提供自然语言处理服务的加拿大初创公司...
Cohere RAGCohere 是一家提供自然语言处理服务的加拿大初创公司...
Contextual AI 重排序器Contextual AI 的指令遵循重排序器是世界上第一个重...
DappierDappier 将任何 LLM 或您的 Agentic AI 连接到实时、权利清晰的...
DocArrayDocArray 是一个多功能、开源工具,用于管理您的多模态...
DriaDria 是一个公共 RAG 模型中心,供开发人员贡献和...
ElasticSearch BM25Elasticsearch 是一个分布式、RESTful 搜索和分析引擎...
ElasticsearchElasticsearch 是一个分布式、RESTful 搜索和分析引擎...
EmbedchainEmbedchain 是一个用于创建数据管道的 RAG 框架。它加载、索引...
FlashRank 重排序器FlashRank 是一个超轻量级、超快速的 Python 库,用于添加重排...
Fleet AI 上下文Fleet AI Context 是一个包含前 1000 个高质量嵌入的数据集...
GalaxiaGalaxia 是 GraphRAG 解决方案,可自动化文档处理、知识...
谷歌云端硬盘本笔记介绍了如何从 Google Drive 检索文档。
谷歌 Vertex AI 搜索Google Vertex AI Search(以前称为 Enterprise Search on Gener...
Graph RAG使用文档元数据对任何向量存储进行图遍历。
GreenNodeGreenNode 是一家全球 AI 解决方案提供商,也是英伟达的首选合作伙伴...
IBM watsonx.aiWatsonxRerank 是 IBM watsonx.ai 基础模型的封装器。
JaguarDB 向量数据库[JaguarDB 向量数据库](http://www.jaguardb.com/windex.html
Kay.aiKai Data API 专为 RAG 构建 🕵️ 我们正在整理世界上最大的数据...
Kinetica 向量存储检索器Kinetica 是一个数据库,集成了对向量相似度搜索的支持...
kNN在统计学中,k-近邻算法(k-NN)是一种非参数的...
LinkupSearchRetrieverLinkup 提供了一个 API,可将 LLM 连接到网络和 Linkup Prem...
LLMLingua 文档压缩器LLMLingua 利用紧凑、训练有素的语言模型(例如 GPT2...
LOTR (合并检索器)检索器之王(LOTR),也称为 MergerRetriever,它采用...
MetalMetal 是一种用于机器学习嵌入的托管服务。
NanoPQ (产品量化)产品量化算法(k-NN)简而言之是一种量化算法...
NebiusNebiusRetriever 能够使用嵌入实现高效的相似性搜索...
needleNeedle 检索器
NimbleNimbleSearchRetriever 使开发人员能够构建 RAG 应用程序和...
OutlineOutline 是一个开源协作知识库平台,设计用于...
PermitPermit 是一个访问控制平台,提供细粒度、实时的...
Pinecone 混合搜索Pinecone 是一个功能广泛的向量数据库。
Pinecone 重排序本笔记展示了如何使用 PineconeRerank 进行两阶段向量重排...
PubMedPubMed®,由美国国家生物技术信息中心提供...
Qdrant 稀疏向量Qdrant 是一个开源、高性能的向量搜索引擎/数据库...
RAGatouilleRAGatouille 让 ColBERT 的使用变得无比简单!
RePhraseQueryRePhraseQuery 是一个简单的检索器,它在用户输入和 LLM 之间应用...
RememberizerRememberizer 是一种用于 AI 应用程序的知识增强服务,可用于...
SEC 文件SEC 文件是提交给美国证券交易委员会的财务报表或其他正式文件...
自查询检索器
SVM支持向量机 (SVM) 是一组监督学习方法...
TavilySearchAPITavily 的搜索 API 是一个专门为 AI 代理构建的搜索引擎...
TF-IDFTF-IDF 指的是词频-逆文档频率。
NeuralDBNeuralDB 是一个 CPU 友好且可微调的检索引擎,开发用于...
ValyuContextValyu 允许 AI 应用程序和代理搜索互联网并提供...
Vectorize本笔记展示了如何使用 LangChain Vectorize 检索器。
VespaVespa 是一个功能齐全的搜索引擎和向量数据库。它支持...
维基百科维基百科是一个多语言的免费在线百科全书,由...
You.comyou.com API 是一套工具,旨在帮助开发人员将...
Zep 云Zep Cloud 的检索器示例
Zep 开源Zep 的检索器示例
Zilliz 云管道Zilliz Cloud Pipelines 将您的非结构化数据转换为可搜索的...
Zotero这将帮助您开始使用 Zotero 检索器。有关详细信息...