跳到主要内容

如何加载 HTML

超文本标记语言或 HTML 是用于在 Web 浏览器中显示的文档的标准标记语言。

本文介绍了如何将 HTML 文档加载到 LangChain Document 对象中,以便我们可以在下游使用它们。

解析 HTML 文件通常需要专门的工具。这里我们演示如何通过 UnstructuredBeautifulSoup4 进行解析,可以通过 pip 安装。请访问集成页面以查找与其他服务的集成,例如 Azure AI 文档智能FireCrawl

使用 Unstructured 加载 HTML

%pip install unstructured
from langchain_community.document_loaders import UnstructuredHTMLLoader

file_path = "../../docs/integrations/document_loaders/example_data/fake-content.html"

loader = UnstructuredHTMLLoader(file_path)
data = loader.load()

print(data)
[Document(page_content='My First Heading\n\nMy first paragraph.', metadata={'source': '../../docs/integrations/document_loaders/example_data/fake-content.html'})]

使用 BeautifulSoup4 加载 HTML

我们还可以使用 BeautifulSoup4 通过 BSHTMLLoader 加载 HTML 文档。这将从 HTML 中提取文本到 page_content 中,并将页面标题作为 title 提取到 metadata 中。

%pip install bs4
from langchain_community.document_loaders import BSHTMLLoader

loader = BSHTMLLoader(file_path)
data = loader.load()

print(data)
API 参考:BSHTMLLoader
[Document(page_content='\nTest Title\n\n\nMy First Heading\nMy first paragraph.\n\n\n', metadata={'source': '../../docs/integrations/document_loaders/example_data/fake-content.html', 'title': 'Test Title'})]

此页内容是否对您有帮助?