跳到主要内容
Open on GitHub

PullMd Loader

PullMd 是一项将网页转换为 Markdown 格式的服务。 langchain-pull-md 包利用此服务将 URL(特别是使用 React、Angular 或 Vue.js 等 JavaScript 框架渲染的 URL)转换为 Markdown,而无需本地渲染。

安装与设置

要开始使用 langchain-pull-md,您需要通过 pip 安装该包

pip install langchain-pull-md

请参阅使用示例,了解详细的集成和使用说明。

文档加载器

langchain-pull-md 中的 PullMdLoader 类提供了一种将 URL 转换为 Markdown 的简便方法。 它对于从现代 Web 应用程序加载内容以在 LangChain 的处理能力中使用尤其有用。

from langchain_pull_md import PullMdLoader

# Initialize the loader with a URL of a JavaScript-rendered webpage
loader = PullMdLoader(url='https://example.com')

# Load the content as a Document
documents = loader.load()

# Access the Markdown content
for document in documents:
print(document.page_content)

此加载器支持任何 URL,尤其擅长处理使用动态 JavaScript 构建的站点,使其成为数据处理工作流程中 Markdown 提取的多功能工具。

API 参考

有关所有可用功能及其参数的全面指南,请访问 API 参考

其他资源


此页内容对您有帮助吗?