Docling
Docling 可以将 PDF、DOCX、PPTX、HTML 和其他格式解析为丰富的统一表示形式,包括文档布局、表格等,使其可以用于生成式 AI 工作流程,如 RAG。
此集成通过
DoclingLoader
文档加载器提供 Docling 的功能。
安装和设置
只需从您的包管理器安装 langchain-docling
,例如 pip
pip install langchain-docling
文档加载器
langchain-docling
中的 DoclingLoader
类将 Docling 无缝集成到 LangChain 中,使您能够
- 轻松快速地在您的 LLM 应用程序中使用各种文档类型,并且
- 利用 Docling 的丰富表示形式进行高级的、文档原生的 grounding。
基本用法如下
from langchain_docling import DoclingLoader
FILE_PATH = ["https://arxiv.org/pdf/2408.09869"] # Docling Technical Report
loader = DoclingLoader(file_path=FILE_PATH)
docs = loader.load()
有关端到端用法,请查看此示例。