文档转换器

📄️ AI21SemanticTextSplitter

这个示例介绍了如何在 LangChain 中使用 AI21SemanticTextSplitter。

📄️ 交叉编码器重排序器

本 Notebook 展示了如何在检索器中实现重排序器，可以使用 Hugging Face 交叉编码器模型或实现了交叉编码器功能的 Hugging Face 模型（例如：BAAI/bge-reranker-base）。SagemakerEndpointCrossEncoder 允许您使用加载到 Sagemaker 上的这些 HuggingFace 模型。

📄️ DashScope 重排序器

本 Notebook 展示了如何使用 DashScope 重排序器进行文档压缩和检索。DashScope 是阿里云的生成式 AI 服务。

📄️ Doctran：提取属性

我们可以使用 Doctran 库提取文档的有用特征，该库利用 OpenAI 的函数调用功能来提取特定的元数据。

📄️ Doctran：审问文档

向量存储知识库中使用的文档通常以叙述或对话形式存储。然而，大多数用户查询都是问题形式。如果我们在向量化之前将文档转换为问答（Q&A）格式，可以增加检索到相关文档的可能性，并减少检索到不相关文档的可能性。

📄️ Doctran：语言翻译

通过嵌入（embeddings）比较文档的优势在于其跨语言能力。“Harrison says hello”和“Harrison dice hola”将在向量空间中占据相似的位置，因为它们在语义上具有相同的含义。

📄️ Google Cloud Vertex AI 重排序器

Vertex Search Ranking API 是 Vertex AI Agent Builder 中的独立 API 之一。它接收一个文档列表，并根据文档与查询的相关性对这些文档进行重新排序。与仅关注文档和查询语义相似度的嵌入（embeddings）相比，排名 API 可以为您提供文档回答给定查询的精确分数。排名 API 可用于在检索到初始候选文档集后提高搜索结果的质量。

📄️ Google Cloud Document AI

Document AI 是 Google Cloud 的文档理解平台，可将文档中的非结构化数据转换为结构化数据，使其更易于理解、分析和使用。

📄️ Google 翻译

谷歌翻译是由谷歌开发的多语言神经网络机器翻译服务，用于将文本、文档和网站从一种语言翻译成另一种语言。

📄️ HTML 到文本

html2text 是一个 Python 包，可以将 HTML 页面转换为干净、易于阅读的纯 ASCII 文本。

📄️ Infinity 重排序器

Infinity 是一个高吞吐量、低延迟的 REST API，用于提供文本嵌入、重排序模型和 clip。

📄️ Jina 重排序器

本 Notebook 展示了如何使用 Jina Reranker 进行文档压缩和检索。

📄️ Markdownify

markdownify 是一个 Python 包，可以将 HTML 文档转换为 Markdown 格式，并提供可定制的选项来处理标签（链接、图片等）、标题样式及其他。

📄️ Nuclia

Nuclia 自动索引来自任何内部和外部来源的非结构化数据，提供优化的搜索结果和生成式答案。它可以处理视频和音频转录、图像内容提取以及文档解析。

📄️ OpenAI 元数据标记器

通常，用结构化元数据（如文档的标题、语调或长度）标记摄入的文档会很有用，以便后续进行更有针对性的相似性搜索。然而，对于大量文档，手动执行此标记过程可能会很繁琐。

📄️ OpenVINO 重排序器

OpenVINO™ 是一个开源工具包，用于优化和部署 AI 推理。OpenVINO™ Runtime 支持各种硬件设备，包括 x86 和 ARM CPU 以及 Intel GPU。它可以帮助提升计算机视觉、自动语音识别、自然语言处理及其他常见任务中的深度学习性能。

RankLLM 是一个灵活的重排序框架，支持列表式（listwise）、成对式（pairwise）和逐点式（pointwise）排序模型。它包括 RankVicuna、RankZephyr、MonoT5、DuoT5、LiT5 和 FirstMistral，并集成了 FastChat、vLLM、SGLang 和 TensorRT-LLM 以实现高效推理。RankLLM 针对检索和排序任务进行了优化，利用开源 LLM 和专有重排序器（如 RankGPT 和 RankGemini）。它支持批量推理、首个令牌重排序以及通过 BM25 和 SPLADE 进行检索。

📄️ Volcengine 重排序器

本 Notebook 展示了如何使用火山引擎（Volcengine）重排序器进行文档压缩和检索。火山引擎（Volcengine）是字节跳动（TikTok 的母公司）开发的云服务平台。

📄️ VoyageAI 重排序器

Voyage AI 提供尖端的嵌入/向量化模型。