Retrievers
一个 检索器 (retriever) 是一个接口,它在给定非结构化查询时返回文档。它比向量存储更通用。检索器不需要能够存储文档,只需要返回(或检索)它们。检索器可以从向量存储创建,但也足够广泛,可以包括 Wikipedia 搜索 和 Amazon Kendra。
检索器接受字符串查询作为输入,并返回 Documents 列表作为输出。
有关如何使用检索器的具体信息,请参阅 此处的相关操作指南。
请注意,所有 向量存储 都可以 转换为检索器。有关可用的向量存储,请参阅向量存储 集成文档。此页面列出了通过子类化 BaseRetriever 实现的自定义检索器。
自带文档
以下检索器允许您索引和搜索自定义文档语料库。
外部索引
以下检索器将搜索外部索引(例如,从互联网数据或类似数据构建)。
检索器 | 来源 | 包 |
---|---|---|
ArxivRetriever | arxiv.org 上的学术文章 | langchain_community |
TavilySearchAPIRetriever | 互联网搜索 | langchain_community |
WikipediaRetriever | Wikipedia 文章 | langchain_community |
所有检索器
名称 | 描述 |
---|---|
Activeloop Deep Memory | Activeloop Deep Memory 是一套工具,使您能够优化... |
Amazon Kendra | Amazon Kendra 是 Amazon Web Services 提供的智能搜索服务... |
Arcee | Arcee 帮助开发 SLM——小型、专业、安全... |
Arxiv | arXiv 是一个开放存取的档案馆,收录了 200 万篇学术文章... |
AskNews | AskNews 为任何 LLM 注入最新的全球新闻(或历史新闻... |
Azure AI Search | Azure AI Search(以前称为 Azure Cognitive Search)是微软的一项服务... |
Bedrock (知识库) | 本指南将帮助您开始使用 AWS 知识库... |
BM25 | BM25 (Wikipedia) 也称为 Okapi BM25,是一种排名函数... |
Box | 这将帮助您开始使用 Box 检索器。有关详细信息... |
BREEBS (开放知识) | BREEBS 是一个开放的协作知识平台。 |
Chaindesk | Chaindesk 平台从任何地方获取数据(数据源:文本、PDF、... |
ChatGPT 插件 | OpenAI 插件将 ChatGPT 连接到第三方应用程序。这些插件... |
Cognee | 这将帮助您开始使用 Cognee 检索器。有关详细信息... |
Cohere reranker | Cohere 是一家加拿大初创公司,提供自然语言处理... |
Cohere RAG | Cohere 是一家加拿大初创公司,提供自然语言处理... |
Contextual AI Reranker | Contextual AI 的 Instruction-Following Reranker 是世界上第一个 r... |
Dappier | Dappier 将任何 LLM 或您的 Agentic AI 连接到实时的、权利清晰的... |
DocArray | DocArray 是一种通用的开源工具,用于管理您的多模态... |
Dria | Dria 是公共 RAG 模型的中心,供开发人员贡献... |
ElasticSearch BM25 | Elasticsearch 是一个分布式的 RESTful 搜索和分析引擎。... |
Elasticsearch | Elasticsearch 是一个分布式的 RESTful 搜索和分析引擎。... |
Embedchain | Embedchain 是一个 RAG 框架,用于创建数据管道。它加载,索引... |
FlashRank reranker | FlashRank 是超轻量级和超快速的 Python 库,用于添加重新排名... |
Fleet AI Context | Fleet AI Context 是一个高质量 Embedding 数据集,包含前 1... |
Google Drive | 本笔记本介绍了如何从 Google Drive 检索文档。 |
Google Vertex AI Search | Google Vertex AI Search(以前称为 Enterprise Search on Gener... |
Graph RAG | 使用文档元数据在任何向量存储上进行图遍历。 |
IBM watsonx.ai | WatsonxRerank 是 IBM watsonx.ai 基础模型的包装器。 |
JaguarDB 向量数据库 | [JaguarDB 向量数据库](http://www.jaguardb.com/windex.html |
Kay.ai | Kai Data API 专为 RAG 构建 🕵️ 我们正在策划世界上最大的 da... |
Kinetica 基于向量存储的检索器 | Kinetica 是一个数据库,集成了对向量相似性的支持... |
kNN | 在统计学中,k-最近邻算法 (k-NN) 是一种非参数... |
LinkupSearchRetriever | Linkup 提供了一个 API,用于将 LLM 连接到 Web 和 Linkup Prem... |
LLMLingua 文档压缩器 | LLMLingua 利用紧凑、训练有素的语言模型(例如,GPT2... |
LOTR (合并检索器) | Lord of the Retrievers (LOTR),也称为 MergerRetriever,采用 a... |
Metal | Metal 是一项用于 ML Embedding 的托管服务。 |
Milvus 混合搜索 | Milvus 是一个开源向量数据库,旨在为 Embedding sim... |
NanoPQ (乘积量化) | 简而言之,乘积量化算法 (k-NN) 是一种量化算法... |
needle | Needle 检索器 |
Nimble | NimbleSearchRetriever 使开发人员能够构建 RAG 应用程序... |
Outline | Outline 是一个开源协作知识库平台,旨在... |
Permit | Permit 是一个访问控制平台,提供细粒度的、实时的... |
Pinecone 混合搜索 | Pinecone 是一个功能广泛的向量数据库。 |
PubMed | PubMed® 由美国国家生物技术信息中心,国家... |
Qdrant 稀疏向量 | Qdrant 是一个开源、高性能的向量搜索引擎/数据库... |
RAGatouille | RAGatouille 使使用 ColBERT 变得尽可能简单! |
RePhraseQuery | RePhraseQuery 是一个简单的检索器,它在 u... |
Rememberizer | Rememberizer 是一种用于 AI 应用程序的知识增强服务 c... |
SEC filing | SEC filing 是提交的财务报表或其他正式文件... |
自查询检索器 | |
SingleStoreDB | SingleStoreDB 是一个高性能分布式 SQL 数据库,支持... |
SVM | 支持向量机 (SVM) 是一组受监督的学习方法... |
TavilySearchAPI | Tavily 的 Search API 是一个专门为 AI 代理构建的搜索引擎... |
TF-IDF | TF-IDF 表示词频乘以逆文档频率。 |
**NeuralDB** | NeuralDB 是一种 CPU 友好且可微调的检索引擎,由 ... 开发 |
Vespa | Vespa 是一个功能齐全的搜索引擎和向量数据库。它支持... |
Wikipedia | 概述 |
You.com | you.com API 是一套旨在帮助开发人员扎根于 ... 的工具 |
Zep Cloud | Zep Cloud 的检索器示例 |
Zep Open Source | Zep 的检索器示例 |
Zilliz Cloud Pipeline | Zilliz Cloud Pipelines 将您的非结构化数据转换为可搜索的... |
Zotero | 这将帮助您开始使用 Zotero 检索器。有关详细信息... |