跳到主要内容

Beautiful Soup

Beautiful Soup 是一个 Python 包,用于解析 HTML 和 XML 文档(包括具有格式错误的标记,即未关闭的标签,因此以标签汤命名)。它为解析的页面创建一个解析树,该解析树可用于从 HTML 中提取数据[3],这对于网页抓取非常有用。

安装和设置

pip install beautifulsoup4

文档转换器

请参阅用法示例

from langchain_community.document_loaders import BeautifulSoupTransformer

此页是否对您有帮助?