跳到主要内容
Open on GitHub

Dedoc

Dedoc 是一个 开源 库/服务,可以从各种格式的文件中提取文本、表格、附件和文档结构(例如,标题、列表项等)。

Dedoc 支持 DOCXXLSXPPTXEMLHTMLPDF、图像等。完整支持的格式列表可以在这里找到。

安装和设置

Dedoc 库

您可以使用 pip 安装 Dedoc。在这种情况下,您需要安装依赖项,请访问此处获取更多信息。

pip install dedoc

Dedoc API

如果您打算使用 Dedoc API,则无需安装 dedoc 库。在这种情况下,您应该运行 Dedoc 服务,例如 Docker 容器(更多详细信息请参阅文档

docker pull dedocproject/dedoc
docker run -p 1231:1231

文档加载器

  • 为了处理任何格式的文件(Dedoc 支持的格式),您可以使用 DedocFileLoader

    from langchain_community.document_loaders import DedocFileLoader
  • 为了处理 PDF 文件(带有或不带有文本层),您可以使用 DedocPDFLoader

    from langchain_community.document_loaders import DedocPDFLoader
  • 为了处理任何格式的文件而无需安装库,您可以将 Dedoc APIDedocAPIFileLoader 一起使用

    from langchain_community.document_loaders import DedocAPIFileLoader

有关更多详细信息,请参阅用法示例


此页面是否对您有帮助?