MediaWikiDump
MediaWiki XML 转储包含 Wiki 的内容(包含所有修订版本的 Wiki 页面),但不包含站点相关数据。XML 转储不会创建 Wiki 数据库的完整备份,其中不包含用户帐户、图像、编辑日志等。
安装与设置
我们需要安装多个 Python 包。
mediawiki-utilities
支持未合并分支中的 XML schema 0.11。
pip install -qU git+https://github.com/mediawiki-utilities/python-mwtypes@updates_schema_0.11
mediawiki-utilities mwxml
存在一个错误,修复 PR 正在等待中。
pip install -qU git+https://github.com/gdedrouas/python-mwxml@xml_format_0.11
pip install -qU mwparserfromhell
文档加载器
查看使用示例。
from langchain_community.document_loaders import MWDumpLoader
API 参考:MWDumpLoader