Beautiful Soup
Beautiful Soup 是一个用于解析 HTML 和 XML 文档(包括格式不正确的标记,例如未闭合的标签,因此得名“标签汤”)的 Python 包。它为已解析的页面创建了一个解析树,可用于从 HTML 中提取数据,[3] 这对于网页抓取非常有用。
安装与设置
pip install beautifulsoup4
文档转换器
参阅使用示例。
from langchain_community.document_loaders import BeautifulSoupTransformer