PullMdLoader
使用 pull.md 服务将 URL 转换为 Markdown 的加载器。
此包实现了一个用于 Web 内容的文档加载器。与传统的 Web 爬虫不同,PullMdLoader 可以处理使用动态 JavaScript 框架(如 React、Angular 或 Vue.js)构建的网页,并将其转换为 Markdown,而无需本地渲染。
概述
集成详情
类 | 包 | 本地 | 可序列化 | JS 支持 |
---|---|---|---|---|
PullMdLoader | langchain-pull-md | ✅ | ✅ | ❌ |
设置
安装
pip install langchain-pull-md
初始化
from langchain_pull_md.markdown_loader import PullMdLoader
# Instantiate the loader with a URL
loader = PullMdLoader(url="https://example.com")
加载
documents = loader.load()
documents[0].metadata
{'source': 'https://example.com',
'page_content': '# Example Domain\nThis domain is used for illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.'}
延迟加载
未实现延迟加载。PullMdLoader
在每次调用 load
方法时,都会将提供的 URL 实时转换为 Markdown 格式。