文本分割器

先决条件

概述

文档分割通常是许多应用程序中至关重要的预处理步骤。它涉及将大型文本分解为更小、更易于管理的块。此过程提供多项优势，例如确保对不同文档长度进行一致处理，克服模型的输入大小限制，以及提高检索系统中使用的文本表示质量。文档分割有多种策略，每种策略都有其自身的优势。

关键概念

Conceptual Overview

文本分割器将文档分割成更小的块，用于下游应用程序。

为什么要分割文档？

分割文档有以下几个原因：

处理非统一文档长度：现实世界的文档集合通常包含大小不一的文本。分割可确保所有文档的处理一致性。
克服模型限制：许多嵌入模型和语言模型都有最大的输入大小限制。分割使我们能够处理那些原本会超出这些限制的文档。
提高表示质量：对于较长的文档，嵌入或其他表示的质量可能会因试图捕获过多信息而下降。分割可以使每个部分的表示更集中、更准确。
提高检索精度：在信息检索系统中，分割可以提高搜索结果的粒度，从而实现查询与相关文档部分的更精确匹配。
优化计算资源：处理更小的文本块可以更节省内存，并允许更好地并行化处理任务。

现在，下一个问题是如何将文档分割成块！有几种策略，每种都有其自身的优势。

延伸阅读

请参阅 Greg Kamradt 的 chunkviz，以可视化下面讨论的不同分割策略。

方法

基于长度

最直观的策略是根据文档长度进行分割。这种简单而有效的方法可确保每个块不超过指定的尺寸限制。基于长度分割的主要优点：

实现简单直接
块大小一致
易于适应不同的模型要求

基于长度的分割类型

基于标记：根据标记数量分割文本，这在使用语言模型时非常有用。
基于字符：根据字符数量分割文本，这在不同类型的文本中可能更具一致性。

使用 LangChain 的 CharacterTextSplitter 进行基于标记的分割的示例实现

from langchain_text_splitters import CharacterTextSplitter
text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    encoding_name="cl100k_base", chunk_size=100, chunk_overlap=0
)
texts = text_splitter.split_text(document)

API 参考：CharacterTextSplitter

延伸阅读

请参阅基于标记分割的操作指南。
请参阅基于字符分割的操作指南。

基于文本结构

文本自然地组织成段落、句子和单词等层次单元。我们可以利用这种内在结构来指导我们的分割策略，创建能够保持自然语言流畅性、保持分割内部语义连贯性并适应不同粒度文本的分割。LangChain 的 RecursiveCharacterTextSplitter 实现了这一概念：

RecursiveCharacterTextSplitter 尝试保持较大的单元（例如，段落）完整。
如果一个单元超出块大小，它将移动到下一级（例如，句子）。
如有必要，此过程将持续到单词级别。

以下是使用示例

from langchain_text_splitters import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=0)
texts = text_splitter.split_text(document)

API 参考：RecursiveCharacterTextSplitter

延伸阅读

请参阅递归文本分割的操作指南。

基于文档结构

某些文档具有固有的结构，例如 HTML、Markdown 或 JSON 文件。在这些情况下，根据文档结构进行分割是有益的，因为它通常自然地将语义相关的文本分组。基于结构分割的主要优点：

保留文档的逻辑组织
保持每个块内的上下文
对检索或摘要等下游任务可能更有效

基于结构的分割示例

Markdown：基于标题（例如，#、##、###）进行分割
HTML：使用标签进行分割
JSON：按对象或数组元素进行分割
代码：按函数、类或逻辑块进行分割

延伸阅读

请参阅Markdown 分割的操作指南。
请参阅递归 JSON 分割的操作指南。
请参阅代码分割的操作指南。
请参阅HTML 分割的操作指南。

基于语义

与之前的方法不同，基于语义的分割实际上考虑了文本的内容。虽然其他方法使用文档或文本结构作为语义的代理，但此方法直接分析文本的语义。有几种实现方式，但从概念上讲，这种方法是在文本含义发生显著变化时分割文本。例如，我们可以使用滑动窗口方法生成嵌入，并比较嵌入以找出显著差异：

从前几句话开始，生成一个嵌入。
移动到下一组句子并生成另一个嵌入（例如，使用滑动窗口方法）。
比较嵌入以找出显著差异，这些差异指示语义部分之间潜在的“断点”。

这项技术有助于创建语义更连贯的块，从而可能提高检索或摘要等下游任务的质量。

延伸阅读

请参阅基于语义分割文本的操作指南。
请参阅 Greg Kamradt 的笔记本，其中展示了语义分割。

概述​

关键概念​

为什么要分割文档？​

方法​

基于长度​

基于文本结构​

基于文档结构​

基于语义​

概述

关键概念

为什么要分割文档？

方法

基于长度

基于文本结构

基于文档结构

基于语义