跳到主要内容
Open In ColabOpen on GitHub

如何加载 HTML

超文本标记语言或 HTML 是一种用于设计在 Web 浏览器中显示的文档的标准标记语言。

本文介绍如何将 HTML 文档加载到 LangChain Document 对象中,以便我们在下游使用。

解析 HTML 文件通常需要专门的工具。在这里,我们演示如何通过 UnstructuredBeautifulSoup4 进行解析,可以通过 pip 安装它们。前往集成页面查找与其他服务的集成,例如 Azure AI 文档智能FireCrawl

使用 Unstructured 加载 HTML

%pip install unstructured
from langchain_community.document_loaders import UnstructuredHTMLLoader

file_path = "../../docs/integrations/document_loaders/example_data/fake-content.html"

loader = UnstructuredHTMLLoader(file_path)
data = loader.load()

print(data)
[Document(page_content='My First Heading\n\nMy first paragraph.', metadata={'source': '../../docs/integrations/document_loaders/example_data/fake-content.html'})]

使用 BeautifulSoup4 加载 HTML

我们还可以使用 BeautifulSoup4 通过 BSHTMLLoader 加载 HTML 文档。这将从 HTML 中提取文本到 page_content 中,并将页面标题作为 title 提取到 metadata 中。

%pip install bs4
from langchain_community.document_loaders import BSHTMLLoader

loader = BSHTMLLoader(file_path)
data = loader.load()

print(data)
API 参考:BSHTMLLoader
[Document(page_content='\nTest Title\n\n\nMy First Heading\nMy first paragraph.\n\n\n', metadata={'source': '../../docs/integrations/document_loaders/example_data/fake-content.html', 'title': 'Test Title'})]

此页是否对您有帮助?