检索器
A 检索器是一种接口,根据非结构化查询返回文档。它比向量存储更通用。检索器不需要能够存储文档,只需要返回(或检索)它们。检索器可以从向量存储中创建,但其范围也足够广泛,可以包括维基百科搜索和Amazon Kendra。
检索器接受字符串查询作为输入,并返回一个文档列表作为输出。
有关如何使用检索器的具体信息,请参阅此处的相关操作指南。
请注意,所有向量存储都可以转换为检索器。有关可用向量存储,请参阅向量存储集成文档。本页面列出了通过继承BaseRetriever实现的自定义检索器。
自带文档
以下检索器允许您索引和搜索自定义文档语料库。
检索器 | 自托管 | 云服务 | 包 |
---|---|---|---|
AmazonKnowledgeBasesRetriever | ❌ | ✅ | langchain_aws |
AzureAISearchRetriever | ❌ | ✅ | langchain_community |
ElasticsearchRetriever | ✅ | ✅ | langchain_elasticsearch |
VertexAISearchRetriever | ❌ | ✅ | langchain_google_community |
外部索引
以下检索器将搜索外部索引(例如,从互联网数据或类似来源构建的)。
检索器 | 来源 | 包 |
---|---|---|
ArxivRetriever | arxiv.org 上的学术文章 | langchain_community |
TavilySearchAPIRetriever | 互联网搜索 | langchain_community |
WikipediaRetriever | 维基百科文章 | langchain_community |
所有检索器
注意:下表中的描述为便于阅读已截断。
名称 | 描述 |
---|---|
Activeloop Deep Memory | Activeloop Deep Memory 是一套工具,可帮助您优化... |
亚马逊 Kendra | Amazon Kendra 是亚马逊网络服务提供的一项智能搜索服务... |
Arcee | Arcee 协助开发 SLM——小型、专业、安全的... |
Arxiv | arXiv 是一个开放获取的档案库,包含 200 万篇学术文章... |
AskNews | AskNews 为任何 LLM 注入最新的全球新闻(或历史新闻... |
Azure AI 搜索 | Azure AI Search(以前称为 Azure Cognitive Search)是微软的... |
Bedrock (知识库) | 本指南将帮助您开始使用 AWS 知识库检索器... |
BM25 | BM25 (Wikipedia),也称为 Okapi BM25,是一种排序函数... |
Box | 这将帮助您开始使用 Box 检索器。有关详细信息... |
BREEBS (开放知识) | BREEBS 是一个开放的协作知识平台。 |
Chaindesk | Chaindesk 平台可从任何地方获取数据(数据源:文本、PDF... |
ChatGPT 插件 | OpenAI 插件将 ChatGPT 连接到第三方应用程序。这些插... |
Cognee | 这将帮助您开始使用 Cognee 检索器。有关详细信息... |
Cohere 重排序器 | Cohere 是一家提供自然语言处理服务的加拿大初创公司... |
Cohere RAG | Cohere 是一家提供自然语言处理服务的加拿大初创公司... |
Contextual AI 重排序器 | Contextual AI 的指令遵循重排序器是世界上第一个重... |
Dappier | Dappier 将任何 LLM 或您的 Agentic AI 连接到实时、权利清晰的... |
DocArray | DocArray 是一个多功能、开源工具,用于管理您的多模态... |
Dria | Dria 是一个公共 RAG 模型中心,供开发人员贡献和... |
ElasticSearch BM25 | Elasticsearch 是一个分布式、RESTful 搜索和分析引擎... |
Elasticsearch | Elasticsearch 是一个分布式、RESTful 搜索和分析引擎... |
Embedchain | Embedchain 是一个用于创建数据管道的 RAG 框架。它加载、索引... |
FlashRank 重排序器 | FlashRank 是一个超轻量级、超快速的 Python 库,用于添加重排... |
Fleet AI 上下文 | Fleet AI Context 是一个包含前 1000 个高质量嵌入的数据集... |
Galaxia | Galaxia 是 GraphRAG 解决方案,可自动化文档处理、知识... |
谷歌云端硬盘 | 本笔记介绍了如何从 Google Drive 检索文档。 |
谷歌 Vertex AI 搜索 | Google Vertex AI Search(以前称为 Enterprise Search on Gener... |
Graph RAG | 使用文档元数据对任何向量存储进行图遍历。 |
GreenNode | GreenNode 是一家全球 AI 解决方案提供商,也是英伟达的首选合作伙伴... |
IBM watsonx.ai | WatsonxRerank 是 IBM watsonx.ai 基础模型的封装器。 |
JaguarDB 向量数据库 | [JaguarDB 向量数据库](http://www.jaguardb.com/windex.html |
Kay.ai | Kai Data API 专为 RAG 构建 🕵️ 我们正在整理世界上最大的数据... |
Kinetica 向量存储检索器 | Kinetica 是一个数据库,集成了对向量相似度搜索的支持... |
kNN | 在统计学中,k-近邻算法(k-NN)是一种非参数的... |
LinkupSearchRetriever | Linkup 提供了一个 API,可将 LLM 连接到网络和 Linkup Prem... |
LLMLingua 文档压缩器 | LLMLingua 利用紧凑、训练有素的语言模型(例如 GPT2... |
LOTR (合并检索器) | 检索器之王(LOTR),也称为 MergerRetriever,它采用... |
Metal | Metal 是一种用于机器学习嵌入的托管服务。 |
NanoPQ (产品量化) | 产品量化算法(k-NN)简而言之是一种量化算法... |
Nebius | NebiusRetriever 能够使用嵌入实现高效的相似性搜索... |
needle | Needle 检索器 |
Nimble | NimbleSearchRetriever 使开发人员能够构建 RAG 应用程序和... |
Outline | Outline 是一个开源协作知识库平台,设计用于... |
Permit | Permit 是一个访问控制平台,提供细粒度、实时的... |
Pinecone 混合搜索 | Pinecone 是一个功能广泛的向量数据库。 |
Pinecone 重排序 | 本笔记展示了如何使用 PineconeRerank 进行两阶段向量重排... |
PubMed | PubMed®,由美国国家生物技术信息中心提供... |
Qdrant 稀疏向量 | Qdrant 是一个开源、高性能的向量搜索引擎/数据库... |
RAGatouille | RAGatouille 让 ColBERT 的使用变得无比简单! |
RePhraseQuery | RePhraseQuery 是一个简单的检索器,它在用户输入和 LLM 之间应用... |
Rememberizer | Rememberizer 是一种用于 AI 应用程序的知识增强服务,可用于... |
SEC 文件 | SEC 文件是提交给美国证券交易委员会的财务报表或其他正式文件... |
自查询检索器 | |
SVM | 支持向量机 (SVM) 是一组监督学习方法... |
TavilySearchAPI | Tavily 的搜索 API 是一个专门为 AI 代理构建的搜索引擎... |
TF-IDF | TF-IDF 指的是词频-逆文档频率。 |
NeuralDB | NeuralDB 是一个 CPU 友好且可微调的检索引擎,开发用于... |
ValyuContext | Valyu 允许 AI 应用程序和代理搜索互联网并提供... |
Vectorize | 本笔记展示了如何使用 LangChain Vectorize 检索器。 |
Vespa | Vespa 是一个功能齐全的搜索引擎和向量数据库。它支持... |
维基百科 | 维基百科是一个多语言的免费在线百科全书,由... |
You.com | you.com API 是一套工具,旨在帮助开发人员将... |
Zep 云 | Zep Cloud 的检索器示例 |
Zep 开源 | Zep 的检索器示例 |
Zilliz 云管道 | Zilliz Cloud Pipelines 将您的非结构化数据转换为可搜索的... |
Zotero | 这将帮助您开始使用 Zotero 检索器。有关详细信息... |