跳到主要内容
Open on GitHub

Docling

Docling 将 PDF、DOCX、PPTX、HTML 和其他格式解析为包含文档布局、表格等内容的丰富统一表示,使它们可用于 RAG 等生成式 AI 工作流程。

此集成通过 DoclingLoader 文档加载器提供 Docling 的功能。

安装与设置

只需通过您的包管理器(例如 pip)安装 langchain-docling 即可

pip install langchain-docling

文档加载器

langchain-docling 中的 DoclingLoader 类将 Docling 无缝集成到 LangChain 中,使您能够

  • 轻松快速地在 LLM 应用程序中使用各种文档类型,并且
  • 利用 Docling 的丰富表示进行高级的、文档原生的基础构建。

基本用法如下所示

from langchain_docling import DoclingLoader

FILE_PATH = ["https://arxiv.org/pdf/2408.09869"] # Docling Technical Report

loader = DoclingLoader(file_path=FILE_PATH)

docs = loader.load()

有关端到端用法,请查看此示例

更多资源