Writer PDF 解析器
本笔记提供了 Writer `PDFParser` 文档加载器的快速入门概览。
Writer 的 PDF 解析器可以将 PDF 文档转换为文本或 Markdown 等其他格式。当您需要从 PDF 文件中提取和处理文本内容以进行进一步分析或集成到您的工作流中时,这尤其有用。在 `langchain-writer` 中,我们提供了 Writer PDF 解析器作为 LangChain 文档解析器的用法。
概述
集成详情
类别 | 包 | 本地 | 可序列化 | JS 支持 | 包下载量 | 最新包版本 |
---|---|---|---|---|---|---|
PDFParser | langchain-writer | ❌ | ❌ | ❌ |
设置
`PDFParser` 位于 `langchain-writer` 包中。
%pip install --quiet -U langchain-writer
凭证
注册 Writer AI Studio 以生成 API 密钥(您可以遵循此快速入门)。然后,设置 WRITER_API_KEY 环境变量。
import getpass
import os
if not os.getenv("WRITER_API_KEY"):
os.environ["WRITER_API_KEY"] = getpass.getpass("Enter your Writer API key: ")
设置 LangSmith 以实现一流的可观测性也很有帮助(但不是必需的)。如果您希望这样做,可以设置 `LANGSMITH_TRACING` 和 `LANGSMITH_API_KEY` 环境变量。
# os.environ["LANGSMITH_TRACING"] = "true"
# os.environ["LANGSMITH_API_KEY"] = getpass.getpass()
实例化
接下来,实例化一个 Writer PDF 解析器实例,并指定所需的输出格式。
from langchain_writer.pdf_parser import PDFParser
parser = PDFParser(format="markdown")
使用
有两种方式使用 PDF 解析器:同步或异步。无论哪种情况,PDF 解析器都将返回一个 `Document` 对象列表,每个对象都包含 PDF 文件中一页的解析内容。
同步用法
要同步调用 PDF 解析器,请将 `Blob` 对象传递给 `parse` 方法,该对象引用您要解析的 PDF 文件。
from langchain_core.documents.base import Blob
file = Blob.from_path("../example_data/layout-parser-paper.pdf")
parsed_pages = parser.parse(blob=file)
parsed_pages
API 参考:Blob
异步使用
要异步调用 PDF 解析器,请将 `Blob` 对象传递给 `aparse` 方法,该对象引用您要解析的 PDF 文件。
parsed_pages_async = await parser.aparse(blob=file)
parsed_pages_async
API 参考
有关所有 `PDFParser` 功能和配置的详细文档,请参阅API 参考。
更多资源
您可以在 Writer 文档中找到有关 Writer 模型(包括成本、上下文窗口和支持的输入类型)和工具的信息。